为什么我还是无法理解transformer?
来源:
编辑:
时间:2025-06-25 10:25:18

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
-
{dede:pagebreak/}


网友评论:
{dede:include file='ajaxfeedback.htm' /}
栏目分类

最新文章
- 国产手机AI「好用」的背后,是技术差距还是文化差异?
- 苹果正式推出 iOS 26、macOS 26 等系统***用全新的「液态玻璃」 设计,有哪些亮点值得关注?
- 为什么开发一个 AI Agent 看似容易,但真正让它「好用」却如此困难?技术瓶颈主要在哪里?
- 为什么海军要单舰满世界溜达呢?
- 形意拳好在哪里?
- 国足提前备战 2030 年世界杯,哪些球员将是下一周期国足的希望?
- 怎么向老婆简单解释nas的用途?
- 阿里网盘为什么没有动静了?
- 微软为 Windows 11 内置全新命令行编辑器 Edit,开源且轻巧,这款工具的推出是否有必要?
- 苹果搭载 M5 芯片的 MacBook Pro 或将于 2025 年秋推出,该产品应用了哪些新技术?

热门文章
