Efficient-DLM: De los Modelos de Lenguaje Autoregresivos a los Modelos de Lenguaje de Difusión, y Más Allá en Velocidad
Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed
December 16, 2025
Autores: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI
Resumen
Los modelos de lenguaje de difusión (dLM) han surgido como un paradigma prometedor que permite una generación paralela y no autoregresiva, pero su eficiencia de aprendizaje se queda por detrás de la de los modelos de lenguaje autoregresivos (AR) cuando se entrenan desde cero. Con este fin, estudiamos la conversión de AR a dLM para transformar modelos AR preentrenados en dLM eficientes que sobresalen en velocidad mientras preservan la precisión en tareas de los modelos AR. Logramos esto identificando las limitaciones en los patrones de atención y los objetivos de los métodos existentes de conversión AR a dLM, y luego proponiendo principios y metodologías para una conversión más efectiva. Específicamente, primero comparamos sistemáticamente diferentes patrones de atención y encontramos que mantener las distribuciones de pesos AR preentrenadas es crítico para una conversión efectiva. Como tal, introducimos un esquema de preentrenamiento continuo con un patrón de atención por bloques, que se mantiene causal entre bloques mientras permite modelado bidireccional dentro de cada bloque. Encontramos que este enfoque puede preservar mejor las distribuciones de pesos de los modelos AR preentrenados que el modelado completamente bidireccional, además de su beneficio conocido de permitir la caché de claves-valores (KV), y conduce a una situación de ganancia tanto en precisión como en eficiencia. En segundo lugar, para mitigar la brecha entre entrenamiento y prueba en las distribuciones de tokens enmascarados (uniforme vs. altamente izquierda-a-derecha), proponemos una estrategia de enmascaramiento de tokens dependiente de la posición que asigna mayores probabilidades de enmascaramiento a los tokens posteriores durante el entrenamiento para imitar mejor el comportamiento durante la prueba. Aprovechando este marco, realizamos estudios extensos sobre los patrones de atención, la dinámica de entrenamiento y otras opciones de diseño de los dLM, proporcionando ideas prácticas para una conversión AR a dLM escalable. Estos estudios conducen a la familia Efficient-DLM, que supera a los modelos AR y dLM más avanzados; por ejemplo, nuestro Efficient-DLM 8B logra una precisión un +5.4%/+2.7% mayor con un rendimiento (throughput) 4.5x/2.7x mayor en comparación con Dream 7B y Qwen3 4B, respectivamente.
English
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.