Modèles de diffusion de langage à grande échelleLarge Language Diffusion Models
Les modèles autorégressifs (ARMs) sont largement considérés comme la pierre angulaire des grands modèles de langage (LLMs). Nous remettons en question cette notion en introduisant LLaDA, un modèle de diffusion entraîné à partir de zéro selon le paradigme de pré-entraînement et de fine-tuning supervisé (SFT). LLaDA modélise les distributions à travers un processus de masquage de données en avant et un processus inverse, paramétré par un Transformer standard pour prédire les tokens masqués. En optimisant une borne de vraisemblance, il offre une approche générative fondée pour l'inférence probabiliste. Sur une vaste gamme de benchmarks, LLaDA démontre une forte scalabilité, surpassant nos bases de référence ARM construites en interne. De manière remarquable, LLaDA 8B est compétitif avec des LLMs puissants comme LLaMA3 8B en apprentissage en contexte et, après SFT, montre des capacités impressionnantes à suivre des instructions dans des études de cas telles que les dialogues multi-tours. De plus, LLaDA résout le problème de la malédiction de l'inversion, surpassant GPT-4o dans une tâche de complétion de poème inversé. Nos résultats établissent les modèles de diffusion comme une alternative viable et prometteuse aux ARMs, remettant en question l'hypothèse selon laquelle les capacités clés des LLMs discutées ci-dessus sont intrinsèquement liées aux ARMs.