Модели диффузии больших языковLarge Language Diffusion Models
Авторегрессионные модели (ARMs) широко считаются краеугольным камнем больших языковых моделей (LLMs). Мы оспариваем это утверждение, представляя LLaDA — диффузионную модель, обученную с нуля в рамках парадигмы предварительного обучения и контролируемой тонкой настройки (SFT). LLaDA моделирует распределения через процесс маскирования данных в прямом направлении и обратный процесс, параметризованный стандартным Transformer для предсказания замаскированных токенов. Оптимизируя границу правдоподобия, она предоставляет принципиальный генеративный подход для вероятностного вывода. На обширных бенчмарках LLaDA демонстрирует высокую масштабируемость, превосходя наши собственные базовые ARM-модели. Примечательно, что LLaDA 8B конкурирует с мощными LLMs, такими как LLaMA3 8B, в обучении в контексте и, после SFT, показывает впечатляющие способности следовать инструкциям в кейс-стадиях, таких как многопользовательский диалог. Более того, LLaDA решает проблему "проклятия обращения", превосходя GPT-4o в задаче завершения обратного стихотворения. Наши результаты устанавливают диффузионные модели как жизнеспособную и перспективную альтернативу ARMs, бросая вызов предположению, что ключевые возможности LLM, обсуждаемые выше, неразрывно связаны с ARMs.