Modelos de Linguagem de Difusão Introspectiva

Resumo

Os modelos de linguagem de difusão prometem geração paralela, mas ainda ficam atrás dos modelos autoregressivos (AR) em qualidade. Atribuímos esta lacuna a uma falha de consistência introspectiva: os modelos AR concordam com as suas próprias gerações, enquanto os modelos de difusão de linguagem (DLM) frequentemente não o fazem. Definimos a taxa de aceitação introspectiva, que mede se um modelo aceita os seus próprios *tokens* previamente gerados. Isto revela porque o treino AR tem uma vantagem estrutural: o *masking* causal e o deslocamento de *logits* impõem implicitamente a consistência introspectiva. Motivados por esta observação, introduzimos o **Modelo de Linguagem de Difusão Introspectiva (I-DLM)**, um paradigma que mantém a descodificação paralela ao estilo de difusão, herdando ao mesmo tempo a consistência introspectiva do treino AR. O I-DLM utiliza um novo algoritmo de descodificação escalonada introspectiva (ISD), que permite ao modelo verificar *tokens* gerados anteriormente, enquanto avança com novos *tokens na mesma passagem direta. Do ponto de vista de sistemas, construímos o motor de inferência do I-DLM com base em otimizações herdadas dos modelos AR e personalizamo-lo ainda mais com um *scheduler* de lotes estacionários. Tanto quanto sabemos, o I-DLM é o primeiro DLM a igualar a qualidade da sua contraparte AR de escala equivalente, superando ainda os DLMs anteriores tanto na qualidade do modelo como na eficiência prática de *serving* em 15 *benchmarks*. Atinge 69,6 no AIME-24 e 45,7 no LiveCodeBench-v6, excedendo o LLaMA-2.1-mini (16B) em mais de 26 e 15 pontos, respetivamente. Para além da qualidade, o I-DLM foi concebido para a crescente procura de *serving* de grande concorrência, oferecendo um *throughput* cerca de 3 vezes superior ao dos DLMs anteriores de última geração.

English

Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.

Modelos de Linguagem de Difusão Introspectiva

Introspective Diffusion Language Models

Resumo

Support