Modelos de Difusión de Lenguaje a Gran EscalaLarge Language Diffusion Models
Los modelos autorregresivos (ARMs) son ampliamente considerados como la piedra angular de los modelos de lenguaje a gran escala (LLMs). Desafiamos esta noción al presentar LLaDA, un modelo de difusión entrenado desde cero bajo el paradigma de preentrenamiento y ajuste fino supervisado (SFT). LLaDA modela distribuciones mediante un proceso de enmascaramiento de datos hacia adelante y un proceso inverso, parametrizado por un Transformer estándar para predecir tokens enmascarados. Al optimizar un límite de verosimilitud, ofrece un enfoque generativo fundamentado para la inferencia probabilística. En una amplia gama de benchmarks, LLaDA demuestra una fuerte escalabilidad, superando nuestras líneas base de ARMs construidas internamente. Notablemente, LLaDA 8B compite con LLMs potentes como LLaMA3 8B en aprendizaje en contexto y, tras el SFT, exhibe impresionantes capacidades de seguimiento de instrucciones en estudios de caso como diálogos multiturno. Además, LLaDA aborda la maldición de la inversión, superando a GPT-4o en una tarea de completar poemas invertidos. Nuestros hallazgos establecen a los modelos de difusión como una alternativa viable y prometedora a los ARMs, desafiando la suposición de que las capacidades clave de los LLMs discutidas anteriormente están intrínsecamente ligadas a los ARMs.