大規模言語拡散モデル
Large Language Diffusion Models
February 14, 2025
著者: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI
要旨
自己回帰モデル(ARMs)は、大規模言語モデル(LLMs)の基盤として広く認識されています。本論文ではこの概念に挑戦し、事前学習と教師ありファインチューニング(SFT)のパラダイムの下でゼロから訓練された拡散モデルであるLLaDAを提案します。LLaDAは、前方データマスキングプロセスと逆プロセスを通じて分布をモデル化し、マスクされたトークンを予測するために標準的なTransformerをパラメータ化します。尤度境界を最適化することで、確率的推論のための原理的な生成アプローチを提供します。広範なベンチマークにおいて、LLaDAは強力なスケーラビリティを示し、我々が独自に構築したARMベースラインを上回りました。特に、LLaDA 8Bは、LLaMA3 8Bのような強力なLLMsと文脈内学習において競争力があり、SFT後は、多ターン対話などのケーススタディで印象的な指示追従能力を示します。さらに、LLaDAは逆転の呪いに対処し、逆転詩の完成タスクにおいてGPT-4oを凌駕しました。我々の知見は、拡散モデルがARMsの有効かつ有望な代替手段であることを確立し、上記で議論された主要なLLM能力が本質的にARMsに結びついているという仮定に挑戦します。
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large
language models (LLMs). We challenge this notion by introducing LLaDA, a
diffusion model trained from scratch under the pre-training and supervised
fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data
masking process and a reverse process, parameterized by a vanilla Transformer
to predict masked tokens. By optimizing a likelihood bound, it provides a
principled generative approach for probabilistic inference. Across extensive
benchmarks, LLaDA demonstrates strong scalability, outperforming our
self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong
LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive
instruction-following abilities in case studies such as multi-turn dialogue.
Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal
poem completion task. Our findings establish diffusion models as a viable and
promising alternative to ARMs, challenging the assumption that key LLM
capabilities discussed above are inherently tied to ARMs.Summary
AI-Generated Summary