Efficient-DLM: Dos Modelos de Linguagem Autoregressivos aos de Difusão, e Além em Velocidade

Resumo

Os modelos de linguagem de difusão (dLMs) emergiram como um paradigma promissor que permite geração paralela e não autorregressiva, mas sua eficiência de aprendizagem fica atrás da dos modelos de linguagem autorregressivos (AR) quando treinados do zero. Para tanto, estudamos a conversão AR-para-dLM para transformar modelos AR pré-treinados em dLMs eficientes que se destacam em velocidade enquanto preservam a precisão das tarefas dos modelos AR. Alcançamos isso identificando limitações nos padrões de atenção e objetivos dos métodos existentes de conversão AR-para-dLM e, em seguida, propondo princípios e metodologias para uma conversão mais eficaz. Especificamente, primeiro comparamos sistematicamente diferentes padrões de atenção e descobrimos que manter as distribuições de pesos AR pré-treinadas é crítico para uma conversão eficaz. Como tal, introduzimos um esquema de pré-treinamento contínuo com um padrão de atenção em blocos, que permanece causal entre blocos, permitindo modelagem bidirecional dentro de cada bloco. Descobrimos que esta abordagem preserva melhor as distribuições de peso dos modelos AR pré-treinados do que a modelagem totalmente bidirecional, além do seu benefício conhecido de permitir cache KV, e leva a um cenário de ganho mútuo em precisão e eficiência. Em segundo lugar, para mitigar a diferença entre treino e teste nas distribuições de tokens mascarados (uniforme vs. altamente left-to-right), propomos uma estratégia de mascaramento de tokens dependente da posição que atribui probabilidades de mascaramento mais altas a tokens posteriores durante o treino para melhor simular o comportamento no teste. Aproveitando este framework, conduzimos estudos extensivos sobre padrões de atenção, dinâmicas de treino e outras escolhas de design dos dLMs, fornecendo insights acionáveis para conversão AR-para-dLM escalável. Estes estudos levam à família Efficient-DLM, que supera os modelos AR e dLMs state-of-the-art, por exemplo, nosso Efficient-DLM 8B alcança +5.4%/+2.7% maior precisão com 4.5x/2.7x maior throughput em comparação com Dream 7B e Qwen3 4B, respectivamente.

English

Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

Efficient-DLM: Dos Modelos de Linguagem Autoregressivos aos de Difusão, e Além em Velocidade

Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

Resumo

Support