日本萝莉 MiniMax押注线性谨防力,让百万级长文本只用1/2700算力
发布日期:2025-04-18 08:57 点击次数:164Transformer 架构主导着生成式 AI 波涛确当下日本萝莉,但它并非十全十好意思,也并非莫得改写者。
MiniMax-01 就以变革者之姿搅拌开源社区,押注线性谨防力机制并将其扩张到前所未有的4560 亿参数界限。
这是一场本领冒险,也可能是架构革命的下一个里程碑。
△ MiniMax-01 本领文档
本期「大模子革命架构」主题访谈,量子位邀请到MiniMax-01 架构崇拜东说念主钟欢然,聊聊线性谨防力从实验室走向工业级大模子的全经过,以及他对模子架构的念念考和洞藏。
以下为量子位与MiniMax 钟欢然的对话实录整理:
非主流本清醒线先驱
量子位:能否先纯粹先容一下我方?
MiniMax 钟欢然:我是钟欢然,面前是 MiniMax 的高等商量总监,主要崇拜收罗架构的策画和多模态和会大模子。在 MiniMax 主要责任是主导策画 MiniMax-01 的收罗结构。
之前我在上海东说念主工智能实验室担任后生科学家新架构探索组的 PI,崇拜非 transformer 架构的高效检修建模递次,以及视听语言多模态交融的商量。
量子位:你是什么时候开动商量线性 attention 的?为什么选拔这条本清醒线?
MiniMax 钟欢然:最早是在 2021 年 7 月份开动商量线性 attention。这其实源于我 2020 年博士毕业时作念的一篇论文《invertible attention》,那时可逆神经收罗和 attention 机制齐比较火,我们就把两者磋磨起来商量。
△《invertible attention》论文
自后,我们团队中有成员对数学很感兴致,而 linear attention 这样的高效序列建模递次对数学要求较高,需要许多公式推导,碰巧契合了团队的兴致,是以我们选拔了这个标的。
量子位:那时 linear attention 在行业内是什么景象?
MiniMax 钟欢然:那时它短长常非主流的,作念的东说念主很少,因为那时大部分商量者齐在作念 transformer。transformer 在 NLP 领域基本上照旧有大一统的趋势。
我们那时想着,与其无间作念 transformer 泯然世东说念主,不如作念 something different。
量子位:你如何判断 linear attention 阶梯的本领后劲?
MiniMax 钟欢然:我们的初志很平直——处置 transformer 二次计较复杂度的问题。那时我们也测试了许多递次,包括 sparse transformer 和 linear attention。
末端发现 sparse transformer 如实能 work,显存和速率齐比 transformer 快,而 linear attention 后果不好,速率也很慢。但我们仍选拔了 linear attention。
一方面是因为它在数学上很有真谛,我们认为它的后果不应该这样差;另一方面,我们认为 sparse attention 的上限便是 full attention,它很难非常,而 linear attention 还有非常的可能性。
量子位:能否先容一下什么是线性 attention?
MiniMax 钟欢然:线性 attention 本色上是一个 kernel trick。在 transformer 中,Q、K、V 三个矩阵相乘时,因为维度不同,先乘 QK 如故先乘 KV 会导致计较复杂度不同。
先乘 KV 不错把计较复杂度酿成线性,但问题是 QK 相乘后会经过 softmax,而 softmax 不称心交换律,无法纯粹地拆分红先乘 KV。是以 linear attention 的第一步便是要去掉 softmax。
但去掉 softmax 会影响末端,接下来的任务便是在去掉 softmax 的情况下,让末端保抓一致性,这便是 linear attention 要作念的事情。
△MiniMax-Text-01 架构涌现
量子位:线性谨防力与寥落 attention、线性 RNN 架构有什么本色分辨?
MiniMax 钟欢然:寥落 attention 本色上仍是一个 softmax attention,仅仅它计较的点比 dense attention 矩阵要少,比如 sliding window attention 只计较窗口内的 attention score,通过少算来达到加快目的。
而 linear RNN 和 linear attention 本色上是一个东西,仅仅有些东说念主把它叫 RNN,有些东说念主把它叫 attention。
因为通盘东西齐不错写成 RNN 形状。比如 lightning attention 对应 rwkv4,而 rwkv-7 其实是阅兵版的 gated delta net,它们天然本色相似,但完了细节不同。
△《RWKV-7 " Goose " with Expressive Dynamic State Evolution》论文
量子位:对线性谨防力机制的商量有哪些关键节点?
MiniMax 钟欢然:最早大略在 2018-19 年,有商量发现不错通过 kernel trick 裁汰 transformer softmax attention 的表面计较复杂度,但那时后果不好,着力也低。
2019-20 年,主流如故sparse attention,谷歌等公司漠视了许多 sparse attention 变种。之后linear attention才开动出现,但面对后果不好、速率不快的场面。
商量东说念主员主要选用两条阶梯阅兵:一是通过对 softmax 函数的靠近,让散布合适 softmax;二是我们选拔的阶梯,不再护理若何靠近 softmax,而是用透顶不同的递次建模。
我们在 2021 年 10 月发表了第一篇论文《COSFORMER : RETHINKING SOFTMAX IN ATTENTION》,用 cos 函数取代了 softmax 操作,让计较不错拆分。
2022 年上半年,我们发表了第二篇《The Devil in linear transformer》,分析了 linear attention 后果变差的原因并给出处置决议,这是lightning attention 的前身。
△《The Devil in linear transformer》论文
自后我们还商量了特地为 linear attention 做事的位置编码,以及长卷积,发表了 TNN,《TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING》,这是与 S4(mamba 的前身)肖似的递次。
最后我们推出了lightning attention,通过阅兵 decay 方式和收罗结构,后果上 match 了 transformer,并通过分块算法(tiling technique)使速率更快。
量子位:若何看待面前非 transformer 架构的本清醒线?
** 钟欢然:linear attention 其实就短长 transformer 的递次。非 transformer 架构面前除了类 RNN 的阶梯,其他阶梯齐式微了。
比如 CNN 像阿谁长卷积、大核卷积,后果不好渐渐就被淘汰了的嗅觉,不外在某些方面其实还蛮强,在序列建模,比如说荒谬检测任务上头如故有一定后果的。
非 transformer 架构其实就三个,一个是linear attention,一个是长卷积,一个是linear RNN。
但本质上这三个齐不错融合成一个,我们把它叫作念linear complexity model**。我们写了一篇著述把这三个事情齐囊括在一说念了。
日本萝莉
△《Unlocking the Secrets of linear Complexity Sequence Model from A Unified Perspective》论文
量子位:lightning attention 与 Mamba、RWKV 的中枢分辨是什么?
MiniMax 钟欢然:最中枢的分辨是 lightning attention 是最纯粹的 linear attention。Mamba 和 RWKV 齐使用 data dependent decay,而 lightning attention 为了速率,使用的是 handcraft decay,即东说念主为指定的 decay。
天然可学习的 decay 后果会更好一些,但会捐躯速率。比如 RWKV-7 比 gating delta net 慢 10-15%,而 gated delta net 速率又比 lightning attention 慢一半独揽。
RWKV 的建模后果如实比 lightning attention 好,但速率慢,且仍未处置 retrieval 问题。
量子位:线性谨防力的上限高且可行,面前是行业共鸣了吗?
MiniMax 钟欢然:不是,如果是共鸣的话,寰球齐会去 scale up linear attention 模子了。况且去面前也不是共鸣,如果面前是共鸣,寰球也会全部作念 linear,但不错看到并莫得。
但对我们来说,在 23 年下半年的时候就照旧看到了这小数。那时我问了许多东说念主,跟许多东说念主聊过,他们最常漠视的点是他们知说念 linear attention 在小界限上如实 work,但以为一朝 scale up 上去就会弗成。
我那时就想那我就把它 scale 上去给寰球望望。面前 minimax-01 出来之后,就没东说念主怀疑 linear attention 在大界限下的才略了。
从小尝试到大落地
量子位:你认为 linear attention 的上限能非常 full attention 吗?
MiniMax 钟欢然:我们面前不错看到 hybrid 架构比纯 transformer 要好。但纯 linear attention 的最大问题是 retrieval 才略,这是学术界面前难以处置的问题。
现存递次天然复杂,速率也慢,仍然无法透顶处置,这亦然为什么必须走向 hybrid 架构的原因。
量子位:那时决定从实验室出来是因为不雅察到了什么样的节点?
MiniMax 钟欢然:在 2023 年 5-6 月份,我们里面照旧有 lightning attention 2,这是那时全国上第一个速率比 Flash attention 还快的 linear attention 完了。
我们认为它照旧向上了工业红线,本领训练度绝顶高,不错 scale up 了。
量子位:如何界说这个工业红线?
MiniMax 钟欢然:最初后果上比 transformer 好,其次比 transformer 快。这样它就具备取代 transformer 的才略了。我们那时在 15B 界限的 dense model 上考证了这小数。
可乐橾视频在线量子位:那时从实验室出来的节点上,为什么最终和 MiniMax 走到了一说念?
MiniMax 钟欢然:那时其实和一些大厂齐有聊过。但最后如故和MiniMax把这个事作念成了。
最初 cosformer 是我跟俊杰相助的著述,我们之间有相助的基础,俊杰之前在商汤的时候便是我雇主。23 年底的时候俊杰就约我吃饭,他是比较肯定本领的这些前沿的可能性。我的和会是他那时也在找本领破损的点。
那时 MiniMax 照旧完成了对 Moe 的商量,下一步的本领破损点其实很少了。那时 lightning attention 照旧发了,mamba 也火了,是以在他眼里是一个可行的标的。
量子位:这和 MiniMax 作念互动伴随居品关系系吗?
MiniMax 钟欢然:莫得什么关联,闫俊杰更护理的是模子的上限,若何能够进一步破损这个天花板。
量子位:linear attention 在各人视线里可能更多是一个破损着力的标的,而不是破损天花板。
MiniMax 钟欢然:这里面的点是在于,最初每个厂商的算力是恒定的,能把模子加快得越快,能吃的数据就越多,产出的模子就越好。在算力恒定的情况下,便是模子越快越好。
量子位:面前有不雅察到数据见顶的情况吗?
MiniMax 钟欢然:面前还莫得吧。数据如故在一直 scale 的阶段,但可能不会像 23 年那么激进。
因为数据恒久在增多,每天齐会有新的数据出来,关于模子来说,它每天齐有新数据去向理。互联网每天坐蓐的数据便是有那么多,通过清洗,我们仍然能获得新的数据出来。
量子位:比拟于东说念主类发展这样多年照旧存在的数据来说,数据增速放缓了吗?
MiniMax 钟欢然:其实不一定,你看中国高低五千年积存出来的也就那几本书。但跟着互联网的发展,数据量的增长短长常陡峻的一个弧线,可能互联网之前产生的举座数据,比不上之后一年产生的数据。
量子位:在 scale up 经过中,lightning attention 面终末哪些挑战?
MiniMax 钟欢然:为了考证它的可扩张性,我们最初作念了 scaling law 实验,从小模子徐徐扩张到 7B、9B,最后 scale 到 400 多 B 的模子。
况且我们从表面上阐发了 linear 的容量比 transformer 大。
我们把容量界说为 RNN 的 current states 大小。对 transformer 来说,容量大小是 O ( d ) ,d 是 size;对 linear attention 来说,容量大小是 d ² /h,由于 d 浩大于 h,是以容量更大。
最终完了上我们也考证了 hybrid 模子比纯 transformer 后果更好。
量子位:4M 长度的序列窗口是如何完了的?
MiniMax 钟欢然:对 lightning 来说,检修长度不错是大肆的。惟有算力打满,检修 8K、32K 或 128K 的速率是同样的,TGS(token per GPU per second)是调换的。
而 transformer 因为是 n ² 的计较复杂度,sequence 越长,计较复杂度增长太快,latency 呈二次弧线飞腾。在 1M 长度时,softmax attention 的 latency 是 lightning attention 的2,700 倍。
量子位:后续作念到无穷高低文窗口还有哪些本领挑战需要搪塞?
MiniMax 钟欢然:我们面前的 hybrid 架构中还有 1/8 的 softmax attention,在 1M 长度下这是瓶颈,这 1/8 带来的 latency 远高于剩下 7/8 的 linear attention。
如果要进行长文本优化,笃定要斟酌优化 softmax attention 部分,不错鉴戒寥落谨防力方式,让它更快、更轻。
另外,我们也斟酌让 softmax 和 linear attention 的混杂比例更极点,不再是 1/8,可能是 1/16 或 1/32。最激进的决议是通盘这个词模子只放一层 softmax,但为了保障我们莫得采纳,主要斟酌是对 retrieval 才略的影响。
量子位:为什么 retrieval 才略对模子如斯紧迫?
MiniMax 钟欢然:**retrieval 是 in-context learning 的基础,是必要条目 **。
你必须记着高低文中的信息才略作念 in-context learning,而 in-context learning 是面前通盘大模子高阶才略的基础,比如CoT ( Chain of Thought ) ,特别是long CoT,它们齐依赖 retrieval 才略。
决胜新架构
量子位:你关系注到行业内,对 FFN 和 attention 最新的架构阅兵吗?
MiniMax 钟欢然:FFN 的阅兵便是 Moe,我也关注了字节的 Ultra Mem,但我以为它是一个有损的东西,是有损的压缩,改日它 scale up 上去可能会有问题,不外我们莫得 scale up,我只可说它可能会有问题。
△《ULTRA-SPARSE MEMORY NETWORK 》论文
因为 FFN 基本上便是这些。Moe 这块我们的阅兵无外乎从之前的大人人改成面前的凡配头模式,让它变得愈加寥落,然后再往下作念一些加快,还需要进一步商量。
再对它进行优化的话,因为 FFN 便是矩阵乘法了,优化就只可像 Nvidia 他们在 CUDA 层面上作念一些矩阵乘法的最底层优化。
量子位:关系注到行业内对 attention 架构方面的阅兵吗?
MiniMax 钟欢然:attention 上的阅兵基本上便是 linear。我们也在斟酌改日会不会作念一个更强的 Linear,在面前基础上,把 Linear attention 作念进一步加快
阅兵标的有许多种决议,一个是改 decay,还有便是改里面的一些小 trick,具体不错期待我们的新 paper。
量子位:我们面前的高低文长度和推理老本的这个比率算是比较先进吗?
MiniMax 钟欢然:**一朝株连到把 sequence length 拉长的话,我们是有很彰着的算力老本上风 **,越长,老本上风会越彰着,无论是推理如故检修。
比如说在 1M 上,linear attention 所破钞的算力是 full attention 的 1/2700。比拟之下,因为我们仍然有 1/8 的 full attention,那基本上便是它便是 transformer 架构的 1/8,因为 linear attention 基本上不算支出了,基本莫得支出。
△linear attention 处理长输入着力和全球顶尖模子对比
量子位:计较支出这样低的话能完了计较瓶颈吗?
MiniMax 钟欢然:面前如实是访存瓶颈,decoding 的时候是访存瓶颈,而不是计较瓶颈。因为 lightning 很快,委果太快了,莫得观点让访存也像计较占用同样少的资源。主若是因为本质专揽中的序列长度齐不够长。
改日如何让它成为计较瓶颈,那便是看若何样去优化访存了。这些会是工程何处需要崇拜的事情。
量子位:如果线性谨防力成为下一代主流架构了,什么样的硬件适配阅兵会更妥当它呢?
MiniMax 钟欢然:这里面绝顶 tricky 的一件事情便是,我们需要斟酌的是序列长度。如果你的序列长度关注于 8K、32K,那么 attention 系数也就占比百分之十几,剩下的百分之八十几齐是背面的 FFN 部分。
即使你把 attention 全部优化到极致,到了 0,你也只优化了百分之十几的时延。但如果把序列长度拉长的话,attention 的占比就会越来越大,这是比拟于 full attention 来说,但对 linear attention 来说,它的占比是不变的。
因为 FFN 亦然线性的,linear attention 亦然线性的,它的占比大略是 10% 独揽,这个是真的不变的,即使在 1M 情况下它亦然百分之十几的占比。
但如果是 full attention 的话,attention 计较可能就占了百分之 99,背面的 FFN 只占了百分之 1 了。是以 linear attention 只会在长文上有上风。
如果线性架组成为主流的话,背面可能便是追求幼稚耗的硬件,只可把能耗裁汰。包括脉冲神经收罗芯片(Spiking Neural Network, SNN)可能会更妥当,其实也有东说念主在作念。
△脉冲神经收罗芯片涌现瞻望 AGI 之路
量子位:对模子开源后果有哪些期待呢?
MiniMax 钟欢然:最初是宣传上的后果。我个东说念主以为开源除了展示一些肌肉除外,最紧迫的如故看寰球后续若何能够用起来,我以为小模子开源可能是改日我们比较斟酌作念的。
还有若何让寰球能够 finetune 的一些基建作念起来,可能亦然需要斟酌的。开源是我们以后耐久的事情,之后旗舰模子应该会抓续开源。
量子位:改日非 hybrid 的某个纯血架构有跑出来的可能吗?
MiniMax 钟欢然:面前莫得递次能比 hybrid 作念得更好,特别是在速率方面。加入一小部分 softmax attention,在序列长度不是特别长的情况下,速率上风绝顶彰着,特别是 flash attention 出现后。
纯血架构的商量仍在进行,但难度很大,照旧莫得低落的果实了。我们有一些本领决议,但完了齐不纯粹,最终取决于我们需要作念到多长的序列长度。
另一个问题是,超长文本是否有浓烈的刚需?天然像 Claude 等模子已达到 200K 高低文,但用户似乎对现时已有长度也很适意。改日 agent 专揽可能会带来对超长序列的需求,但面前还莫得训练的 benchmark。
但我以为这个问题就像 Nvidia 会为改日的游戏建立超前性能的显卡同样,天然面前还用不上,但这是面向改日的本领。
比如 deep research 需要模子读取几十个网站的内容,处理时刻在几十分钟级别,这可能是长文本的一个专揽标的。
量子位:你以为 CoT 之后的下一个大事情可能会是什么呢?
MiniMax 钟欢然:这个我们想过,最初面前的 reasoning model 是比较火的,本年的主流还会是 reasoning 这一块。之后的话,我们很难猜测纯语言模子改日还有什么特别大的变革。
我也跟别的针织聊过,他们的嗅觉是寰球会去再行减少模子支出,就让 reasoning 的速率越来越快,让它的价钱变得越来越低,在防守后果的情况下把老本往下压。
因为天花板很快就接近了,面前绝大浩繁的情况齐是在对大模子才略进行查漏补缺。但如果说还有更大的本领破损,短期内可能比较稀少,我们还没看到。
量子位:MiniMax 在探索了线性谨防力之后,下一个可能探索的标的是什么呢?
MiniMax 钟欢然:下一个可能是去探索多模态的架构,具体指的是我们要不要作念这种原生的生成和会融合大模子的架构。
量子位:以 AGI 为尽头,计较复杂度 O ( n ² ) 如故 O ( n ) 的模子会是更好的谜底?
MiniMax 钟欢然:那天然是 O ( n ) 了。从拟东说念主化来说,东说念主笃定是 O ( n ) 复杂度的。就比如说打个比喻,如果东说念主的复杂度是 O ( n ² ) ,那么我跟你语言的速率会变得越来越慢。
因为对 transformer 来说,它的 inference 的 complexity 是 O ( n ² ) 的计较复杂度,也便是我吐第一个 token 和吐第 100 个 token 的时延是不同样的。
我们东说念主类无法设想这样的事情,因为东说念主从诞生下来之后总莫得重启过,是一直在吐东西的,是以东说念主的计较复杂度便是恒定的。
量子位:东说念主一定是智能的最优解吗?
MiniMax 钟欢然:我们面前只可这样想,还有一些东说念主作念仿生智能的阶梯,我们莫得太关注那些标的。
量子位:以 AGI 为终局的话,模子哪些标的的订恰是最紧迫的事情?
MiniMax 钟欢然:除了语言建模除外,还有一个便是学习方式的问题。你若何去学习,以及从环境当中学习,与环境的交互当中学习很紧迫,毕竟面前的多模态和会还短长常的缺数据。
况且机器即使是 few-shot 的学习面前也齐是带标注的,但东说念主的学习是不带标注的。那么若何把通盘的东西融合在一个自建构的框架底下,亦然一个问题。
代码:https://github.com/MiniMax-AI/MiniMax-01
模子:https://huggingface.co/MiniMaxAI/MiniMax-Text-01, https://huggingface.co/MiniMaxAI/MiniMax-VL-01
本领敷陈:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf日本萝莉