ChatPaper.aiChatPaper

Modelos de Lenguaje de Difusión de Contexto Residual

Residual Context Diffusion Language Models

January 30, 2026
Autores: Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu
cs.AI

Resumen

Los Modelos de Lenguaje Grandes de Difusión (dLLMs, por sus siglas en inglés) han surgido como una alternativa prometedora a los modelos de lenguaje puramente autoregresivos debido a su capacidad para decodificar múltiples tokens en paralelo. Sin embargo, los dLLMs de última generación basados en bloques dependen de un mecanismo de "reenmascaramiento" que decodifica únicamente los tokens más confiables y descarta el resto, desperdiciando efectivamente capacidad de cómputo. Demostramos que reciclar el cómputo de los tokens descartados es beneficioso, ya que estos tokens conservan información contextual útil para iteraciones de decodificación posteriores. En vista de esto, proponemos Difusión de Contexto Residual (RCD, por sus siglas en inglés), un módulo que convierte estas representaciones de tokens descartados en residuos contextuales y los inyecta de nuevo para el siguiente paso de eliminación de ruido. RCD utiliza un pipeline de entrenamiento en dos etapas desacopladas para evitar los cuellos de botella de memoria asociados con la retropropagación. Validamos nuestro método tanto en modelos de razonamiento CoT largo (SDAR) como en modelos de seguimiento de instrucciones CoT corto (LLaDA). Demostramos que un dLLM estándar puede convertirse eficientemente al paradigma RCD con apenas ~1 mil millones de tokens. RCD mejora consistentemente a los dLLMs de vanguardia en 5-10 puntos de precisión con una sobrecarga computacional adicional mínima en una amplia gama de benchmarks. Notablemente, en las tareas AIME más desafiantes, RCD casi duplica la precisión de la línea base y alcanza hasta 4-5 veces menos pasos de eliminación de ruido en niveles de precisión equivalentes.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely on a "remasking" mechanism that decodes only the most confident tokens and discards the rest, effectively wasting computation. We demonstrate that recycling computation from the discarded tokens is beneficial, as these tokens retain contextual information useful for subsequent decoding iterations. In light of this, we propose Residual Context Diffusion (RCD), a module that converts these discarded token representations into contextual residuals and injects them back for the next denoising step. RCD uses a decoupled two-stage training pipeline to bypass the memory bottlenecks associated with backpropagation. We validate our method on both long CoT reasoning (SDAR) and short CoT instruction following (LLaDA) models. We demonstrate that a standard dLLM can be efficiently converted to the RCD paradigm with merely ~1 billion tokens. RCD consistently improves frontier dLLMs by 5-10 points in accuracy with minimal extra computation overhead across a wide range of benchmarks. Notably, on the most challenging AIME tasks, RCD nearly doubles baseline accuracy and attains up to 4-5x fewer denoising steps at equivalent accuracy levels.
PDF281February 6, 2026