Modèles de diffusion de langage à grande échelle
Large Language Diffusion Models
February 14, 2025
Auteurs: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI
Résumé
Les modèles autorégressifs (ARMs) sont largement considérés comme la pierre angulaire des grands modèles de langage (LLMs). Nous remettons en question cette notion en introduisant LLaDA, un modèle de diffusion entraîné à partir de zéro selon le paradigme de pré-entraînement et de fine-tuning supervisé (SFT). LLaDA modélise les distributions à travers un processus de masquage de données en avant et un processus inverse, paramétré par un Transformer standard pour prédire les tokens masqués. En optimisant une borne de vraisemblance, il offre une approche générative fondée pour l'inférence probabiliste. Sur une vaste gamme de benchmarks, LLaDA démontre une forte scalabilité, surpassant nos bases de référence ARM construites en interne. De manière remarquable, LLaDA 8B est compétitif avec des LLMs puissants comme LLaMA3 8B en apprentissage en contexte et, après SFT, montre des capacités impressionnantes à suivre des instructions dans des études de cas telles que les dialogues multi-tours. De plus, LLaDA résout le problème de la malédiction de l'inversion, surpassant GPT-4o dans une tâche de complétion de poème inversé. Nos résultats établissent les modèles de diffusion comme une alternative viable et prometteuse aux ARMs, remettant en question l'hypothèse selon laquelle les capacités clés des LLMs discutées ci-dessus sont intrinsèquement liées aux ARMs.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large
language models (LLMs). We challenge this notion by introducing LLaDA, a
diffusion model trained from scratch under the pre-training and supervised
fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data
masking process and a reverse process, parameterized by a vanilla Transformer
to predict masked tokens. By optimizing a likelihood bound, it provides a
principled generative approach for probabilistic inference. Across extensive
benchmarks, LLaDA demonstrates strong scalability, outperforming our
self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong
LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive
instruction-following abilities in case studies such as multi-turn dialogue.
Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal
poem completion task. Our findings establish diffusion models as a viable and
promising alternative to ARMs, challenging the assumption that key LLM
capabilities discussed above are inherently tied to ARMs.Summary
AI-Generated Summary