拳交 纯自转头图像生成模子开源来了,复旦联手字节seed共同捍卫自转头

发布日期:2025-04-20 07:25    点击次数:124

拳交 纯自转头图像生成模子开源来了,复旦联手字节seed共同捍卫自转头

基于 Transformer 的自转头架构在言语建模上获得了权臣得手,但在图像生成领域拳交,扩散模子凭借弘远的生成质料和可控性占据了主导地位。

天然一些早期责任如 Parti、LlamaGen,尝试用更强的视觉 tokenizer 和 Transformer 架构来提高自转头生成的遵循,但他们论文中的律例标明,唯有更多的参数目才智让自转头模子拼集和扩散模子"掰掰手腕"。

这也让越来越多的探究者质疑自转头视觉生成是否是一条可行、值得探索的旅途。频繁来说,群众觉得自转头视觉生成模子的不及集中:

1. 闹翻的 token 势必带来更多的信息亏本:当下校正视觉 tokenizer 亦然一个备受存眷的目的,最新的范例岂论是闹翻或连气儿都可以获得十分好的重建遵循(至少不会制约生成模子),因此深信这少量不会是制约两条阶梯的中枢原因;

2。 视觉 token 序列延续较长、因此很难建模 token 间的干系:对于一个 512 差异率的图像来说,16 倍压缩比的 tokenizer 意味着视觉 token 序列的长度是 1024。对于禁受因果掩码(causal mask)的自转头模子来说,建模这样长的序列无疑是很有挑战性的;

3. 下一个 token 揣测的遵循太低:比较于扩散模子或 MaskGIT 那样一步出整图或多个 token,自转头模子串行揣测 token 的时势在生成速率方面存在昭彰破绽。

近些时分,也有一些责任如 VAR 和 MAR 尝试重新界说视觉里自转头的神气,比如下一个圭臬揣测、或用连气儿 token 作念自转头。这些范例在 ImageNet 这样的学术数据集上获得了可以的遵循,关联词也潜在地破碎了视觉模态和言语模子的对都性。

带着意思的心态,来自复旦视觉与学习践诺室和字节 Seed 的探究者们但愿"验一验"自转头视觉生成模子的智商,他们保合手" Next-token prediction "这样简陋优好意思的神气,而通过优化历练和推理流程来探究自转头视觉生成是否可以像扩散模子雷同获得可以的文生图遵循。

不依赖外挂文本编码器的自转头模子

先说论断!这篇责任有三点惊艳的发现:

在0.5B 的参数领域下,纯自转头模子可以生成 1024 差异率的高质料图像,且在常用文生图基准上获得了十分有竞争力的律例,举例在 GenEval 上获得了 0.59, 是 1B 以内模子的 SOTA;

通过"预历练 - 有监督微调 - 强化学习"这样的三阶段历练,模子可以生成出具有很高好意思学性的图像,且有监督微调(SFT)和基于 GRPO 的强化学习可以合手续提高模子的提醒跟班智商以及生收遵循;

当用 vLLM 进行部署时,0.5B 的模子可以在14 秒以内生成 1024 差异率的图像。

性能比较

本文漠视的 SimpleAR 在 GenEval 和 DPG 上都获得了可以的律例,其中0.5B 模子权臣高出了 SDv2.1 和 LlamaGen。

值得一提的是,扩散模子和 Infinity 这类范例都依赖于外挂的文本编码器,如 Infinity 使用了 3B 的 FlanT5-XL, 而本文漠视的自转头模子则将文本(prompt)编码和视觉生成集成在了一个 decoder-only 的 Transformer 里,不仅可以更好地学习跨模态对都,也能愈加高效地诳骗参数。

1.5B 模子的性能距离 Infinity 还有差距,但本文深信这主淌若由数据领域导致的,当用更多的高质料数据历练时,模子的性能还可以被进一步提高。此外,本文华纳了 Cosmos 动作视觉 tokenizer,其在重建低差异率图像和东谈主脸等细节上十分有限,因此生成智商还有充分被校正的空间。

本文还初次在文生图上得手应用了 GRPO 进行后历练,律例标明:诳骗 CLIP 这样十分浅薄的 reward 函数,也仍是可以不雅察到十分有后劲的 reward 弧线、并在 GenEval 上了获得了权臣的性能提高:

终末是对于遵循问题。本文率先尝试了用 vLLM 将模子部署到 A100 上,律例标明其可以权臣地提高模子的推理速率:仅需 13.55 秒就能生成 1024 差异率的高质料图像,这权臣松开了和扩散模子的差距,并由于可以使用 KV Cache 工夫而比较于 MaskGIT 更有上风。本文也完毕了推断采样,其可以灵验镌汰 2 倍的自转头推理步数。尽管由于不行使用 KV Cache,单纯的步数减少不行径直带来推理时分的镌汰,但这为高效自转头视觉生成提供了一些新鲜的念念路。

可视化律例

几点念念考

顾名念念义,SimpleAR 仅仅团队对于自转头视觉生成的一次浅薄尝试,但从中可以看到自转头模子相较于扩散模子的几点上风:

1. 将文本和视觉 token 摆上对等的地位,更好地守旧不同模态之间的归拢建模学习,从而有益于构建原生的多模态剖析和生成模子;

2. 与现存守旧言语模子后历练和推理加快的工夫兼容性高:通过强化学习可以权臣提高模子的文本跟班智商和生收遵循、通过 vLLM 可以灵验镌汰模子的推理时分;

本文历练及测试代码以及模子权重均已开源,但愿荧惑更多的东谈主参与到自转头视觉生成的探索中。

论文集中:

https://arxiv.org/abs/2504.11455

代码地址:

https://github.com/wdrink/SimpleAR

一键三连「点赞」「转发」「留心心」

宽饶在驳斥区留住你的主见!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本色‍

附上论文 / 技俩主页集中,以及有关时势哦

咱们会(尽量)实时回答你

� � 点亮星标 � �

科技前沿推崇逐日见拳交