网站地图官方微信:
网站首页 浪头镇 纯化镇 苍台镇 地灵乡 丹灶镇 毛云乡

当前位置: 首页 >

为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?

  • | 国内大厂现在用rust的多吗? |

    RUST在linux内核中持续了好几年,不断有特性合入lin...

    查看详情>>
  • | 女明星做了什么医美项目保持童颜? |

  • | ***药昆仑石刻有了清理土石后的***照片,请问现在大家怎么看待石刻的真伪? |

  • | 为什么河南饮食走不出去? |

  • | “看不起印度,仅仅因为你是中国,而对于普通国家,印度已经是巨人”,这个观点你认同吗? |

  • | flutter为什么不用Go语言,而用Dart? |

  • | 垃圾佬一般都是在哪里捡垃圾的? |

  • | Golang和J***a到底怎么选? |

  • | 我应该设置多少kb才能让他不能玩游戏? |

  • | 为什么黄毛骗走的都是乖乖女? |

  • | 各位前端大触们,一般怎么定颜色的? |

  • 6月18日,英国皇家海军斯佩号/HMS Spey/P234近...

    2025-06-27
  • 1 前言 Claude Code,是由 Anthropi...

    2025-06-27
  • 关于粥饼伦、黑伦等模仿者,周杰伦本人去年曾经公开回应过,他的...

    2025-06-27
  • 都说了80T硬盘了,怎么还有人想着3.5寸机械的事,跟企业级...

    2025-06-27

关注我们

添加微信好友,关注最新动态