De la Predicción del Siguiente Token a la del Siguiente Bloque: Una Ruta de Adaptación Fundamentada para los LLMs de Difusión

Resumen

Los grandes modelos de lenguaje (LLM) sobresalen en generación, pero la decodificación autoregresiva (AR) dominante es inherentemente secuencial, creando un cuello de botella en el rendimiento. Los modelos de lenguaje de difusión (DLM), especialmente las variantes por bloques, permiten generación paralela y razonamiento bidireccional intra-bloque; sin embargo, entrenar grandes DLMs desde cero es costoso y desperdicia el conocimiento presente en los checkpoints AR maduros. Intentos previos de "adaptación" ya sea modifican los logits o expanden aleatoriamente las máscaras de atención hacia una difusión de secuencia completa, o simplemente trasplantan los pesos AR a una receta de difusión por bloques, dejando sin resolver una discrepancia fundamental entre la causalidad AR y la bidireccionalidad por bloques. Replanteamos la adaptación como una ruta intra-paradigma desde AR hacia Difusión por Bloques, visualizando AR como Difusión por Bloques con un tamaño de bloque=1. Concretamente, diseñamos la ruta de adaptación de la siguiente manera: utilizamos una máscara de atención causal-contextual (causal en el contexto, bidireccional solo dentro del bloque activo), un procedimiento de adaptación paralela eficiente, una pérdida AR auxiliar para maximizar la utilización de datos y retener el conocimiento preentrenado, y un incremento gradual del tamaño del bloque de generación. La receta se integra limpiamente con la difusión de bloques enmascarada y mantiene la consistencia entre entrenamiento e inferencia. Basados en estos componentes, NBDiff-7B (Base e Instruct) pudo heredar las capacidades de modelado de contexto largo y de razonamiento, y logró un rendimiento de vanguardia entre los DLMs de clase 7B, obteniendo ganancias significativas en puntos de referencia de conocimiento general, matemáticas y código sobre líneas base sólidas. Estos resultados demuestran que la adaptación principlada de AR a difusión por bloques es una alternativa efectiva y computacionalmente eficiente al entrenamiento de DLMs desde cero. Código: https://github.com/YuchuanTian/NBDiff.

English

Large language models (LLMs) excel at generation but dominant autoregressive (AR) decoding is inherently sequential, creating a throughput bottleneck. Diffusion Language Models (DLMs)--especially block-wise variants--enable parallel generation and intra-block bidirectional reasoning, yet training large DLMs from scratch is costly and wastes the knowledge in mature AR checkpoints. Prior "adaptation" attempts either modify logits or randomly grow attention masks to full-sequence diffusion, or simply transplant AR weights into a block-diffusion recipe, leaving a fundamental mismatch between AR causality and block-wise bidirectionality unaddressed. We reframe adaptation as a intra-paradigm path from AR to Block-Diffusion by viewing AR as Block-Diffusion with blocksize=1. Concretely, we design the pathway of adaptation as follows: we use a context-causal attention mask (causal in context, bidirectional only within the active block), an efficient parallel adaptation procedure, an auxiliary AR loss to maximize data utilization and retain pretrained knowledge, and gradual increment of the generation block size. The recipe integrates cleanly with masked block-diffusion and maintains train-inference consistency. Built on these components, NBDiff-7B (Base and Instruct) could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs, delivering strong gains on general-knowledge, math, and code benchmarks over strong baselines. These results demonstrate that principled AR-to-block-diffusion adaptation is an effective and compute-efficient alternative to training DLMs from scratch. Codes: https://github.com/YuchuanTian/NBDiff.

De la Predicción del Siguiente Token a la del Siguiente Bloque: Una Ruta de Adaptación Fundamentada para los LLMs de Difusión

From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

Resumen

Support