Modelos de Difusión de Lenguaje a Gran Escala
Large Language Diffusion Models
February 14, 2025
Autores: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI
Resumen
Los modelos autorregresivos (ARMs) son ampliamente considerados como la piedra angular de los modelos de lenguaje a gran escala (LLMs). Desafiamos esta noción al presentar LLaDA, un modelo de difusión entrenado desde cero bajo el paradigma de preentrenamiento y ajuste fino supervisado (SFT). LLaDA modela distribuciones mediante un proceso de enmascaramiento de datos hacia adelante y un proceso inverso, parametrizado por un Transformer estándar para predecir tokens enmascarados. Al optimizar un límite de verosimilitud, ofrece un enfoque generativo fundamentado para la inferencia probabilística. En una amplia gama de benchmarks, LLaDA demuestra una fuerte escalabilidad, superando nuestras líneas base de ARMs construidas internamente. Notablemente, LLaDA 8B compite con LLMs potentes como LLaMA3 8B en aprendizaje en contexto y, tras el SFT, exhibe impresionantes capacidades de seguimiento de instrucciones en estudios de caso como diálogos multiturno. Además, LLaDA aborda la maldición de la inversión, superando a GPT-4o en una tarea de completar poemas invertidos. Nuestros hallazgos establecen a los modelos de difusión como una alternativa viable y prometedora a los ARMs, desafiando la suposición de que las capacidades clave de los LLMs discutidas anteriormente están intrínsecamente ligadas a los ARMs.
English
Autoregressive models (ARMs) are widely regarded as the cornerstone of large
language models (LLMs). We challenge this notion by introducing LLaDA, a
diffusion model trained from scratch under the pre-training and supervised
fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data
masking process and a reverse process, parameterized by a vanilla Transformer
to predict masked tokens. By optimizing a likelihood bound, it provides a
principled generative approach for probabilistic inference. Across extensive
benchmarks, LLaDA demonstrates strong scalability, outperforming our
self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong
LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive
instruction-following abilities in case studies such as multi-turn dialogue.
Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal
poem completion task. Our findings establish diffusion models as a viable and
promising alternative to ARMs, challenging the assumption that key LLM
capabilities discussed above are inherently tied to ARMs.Summary
AI-Generated Summary