Модели диффузии больших языков
Large Language Diffusion Models
February 14, 2025
Авторы: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI
Аннотация
Авторегрессионные модели (ARMs) широко считаются краеугольным камнем больших языковых моделей (LLMs). Мы оспариваем это утверждение, представляя LLaDA — диффузионную модель, обученную с нуля в рамках парадигмы предварительного обучения и контролируемой тонкой настройки (SFT). LLaDA моделирует распределения через процесс маскирования данных в прямом направлении и обратный процесс, параметризованный стандартным Transformer для предсказания замаскированных токенов. Оптимизируя границу правдоподобия, она предоставляет принципиальный генеративный подход для вероятностного вывода. На обширных бенчмарках LLaDA демонстрирует высокую масштабируемость, превосходя наши собственные базовые ARM-модели. Примечательно, что LLaDA 8B конкурирует с мощными LLMs, такими как LLaMA3 8B, в обучении в контексте и, после SFT, показывает впечатляющие способности следовать инструкциям в кейс-стадиях, таких как многопользовательский диалог. Более того, LLaDA решает проблему "проклятия обращения", превосходя GPT-4o в задаче завершения обратного стихотворения. Наши результаты устанавливают диффузионные модели как жизнеспособную и перспективную альтернативу ARMs, бросая вызов предположению, что ключевые возможности LLM, обсуждаемые выше, неразрывно связаны с ARMs.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large
language models (LLMs). We challenge this notion by introducing LLaDA, a
diffusion model trained from scratch under the pre-training and supervised
fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data
masking process and a reverse process, parameterized by a vanilla Transformer
to predict masked tokens. By optimizing a likelihood bound, it provides a
principled generative approach for probabilistic inference. Across extensive
benchmarks, LLaDA demonstrates strong scalability, outperforming our
self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong
LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive
instruction-following abilities in case studies such as multi-turn dialogue.
Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal
poem completion task. Our findings establish diffusion models as a viable and
promising alternative to ARMs, challenging the assumption that key LLM
capabilities discussed above are inherently tied to ARMs.Summary
AI-Generated Summary