Modèles de langage à diffusion introspective

Résumé

Les modèles de langage par diffusion promettent une génération parallèle, mais restent encore inférieurs en qualité aux modèles autorégressifs (AR). Nous attribuons cet écart à un manque de cohérence introspective : les modèles AR sont cohérents avec leurs propres générations, tandis que les modèles de diffusion linguistique (DLM) ne le sont souvent pas. Nous définissons le taux d'acceptation introspective, qui mesure si un modèle accepte ses tokens précédemment générés. Cela révèle pourquoi l'entraînement AR présente un avantage structurel : le masquage causal et le décalage des logits appliquent implicitement une cohérence introspective. Motivés par cette observation, nous présentons Introspective Diffusion Language Model (I-DLM), un paradigme qui conserve le décodage parallèle de type diffusion tout en héritant de la cohérence introspective de l'entraînement AR. I-DLM utilise un nouvel algorithme de décodage en pas introspectif (ISD), qui permet au modèle de vérifier les tokens précédemment générés tout en en produisant de nouveaux dans la même passe avant. D'un point de vue système, nous construisons le moteur d'inférence d'I-DLM sur des optimisations héritées des modèles AR et le personnalisons davantage avec un ordonnanceur à lots stationnaires. À notre connaissance, I-DLM est le premier DLM à égaler la qualité de son homologue AR de même échelle tout en surpassant les DLM antérieurs en qualité de modèle et en efficacité pratique de service sur 15 benchmarks. Il atteint 69,6 sur AIME-24 et 45,7 sur LiveCodeBench-v6, dépassant LLaMA-2.1-mini (16B) de plus de 26 et 15 points respectivement. Au-delà de la qualité, I-DLM est conçu pour répondre à la demande croissante de service à grande concurrence, offrant un débit environ 3 fois supérieur à celui des DLM antérieurs les plus performants.

English

Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.

Modèles de langage à diffusion introspective

Introspective Diffusion Language Models

Résumé

Support