Modelos de Linguagem de Difusão de Contexto Residual
Residual Context Diffusion Language Models
January 30, 2026
Autores: Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu
cs.AI
Resumo
Os Modelos de Linguagem Grande por Difusão (dLLMs) surgiram como uma alternativa promissora aos modelos de linguagem puramente autoregressivos, pois podem decodificar múltiplos tokens em paralelo. No entanto, os dLLMs state-of-the-art baseados em blocos dependem de um mecanismo de "remascaramento" que decodifica apenas os tokens mais confiáveis e descarta o resto, desperdiçando efetivamente computação. Demonstramos que reciclar a computação dos tokens descartados é benéfico, uma vez que esses tokens retêm informações contextuais úteis para iterações subsequentes de decodificação. Diante disso, propomos a Difusão de Contexto Residual (RCD), um módulo que converte essas representações de tokens descartados em resíduos contextuais e os injeta de volta para a próxima etapa de remoção de ruído. O RCD utiliza um pipeline de treinamento em dois estágios desacoplado para contornar os gargalos de memória associados à retropropagação. Validamos nosso método em modelos de raciocínio CoT longo (SDAR) e de seguimento de instruções CoT curto (LLaDA). Demonstramos que um dLLM padrão pode ser convertido eficientemente para o paradigma RCD com apenas ~1 bilhão de tokens. O RCD melhora consistentemente os dLLMs de fronteira em 5-10 pontos de precisão com sobrecarga computacional extra mínima em uma ampla gama de benchmarks. Notavelmente, nas tarefas mais desafiadoras do AIME, o RCD quase duplica a precisão da linha de base e atinge até 4-5x menos etapas de remoção de ruído em níveis de precisão equivalentes.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely on a "remasking" mechanism that decodes only the most confident tokens and discards the rest, effectively wasting computation. We demonstrate that recycling computation from the discarded tokens is beneficial, as these tokens retain contextual information useful for subsequent decoding iterations. In light of this, we propose Residual Context Diffusion (RCD), a module that converts these discarded token representations into contextual residuals and injects them back for the next denoising step. RCD uses a decoupled two-stage training pipeline to bypass the memory bottlenecks associated with backpropagation. We validate our method on both long CoT reasoning (SDAR) and short CoT instruction following (LLaDA) models. We demonstrate that a standard dLLM can be efficiently converted to the RCD paradigm with merely ~1 billion tokens. RCD consistently improves frontier dLLMs by 5-10 points in accuracy with minimal extra computation overhead across a wide range of benchmarks. Notably, on the most challenging AIME tasks, RCD nearly doubles baseline accuracy and attains up to 4-5x fewer denoising steps at equivalent accuracy levels.