Residueel Context Diffusie Taalmodellen
Residual Context Diffusion Language Models
January 30, 2026
Auteurs: Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu
cs.AI
Samenvatting
Diffusion Large Language Models (dLLM's) zijn naar voren gekomen als een veelbelovend alternatief voor puur autoregressieve taalmodellen omdat ze meerdere tokens parallel kunnen decoderen. State-of-the-art block-wise dLLM's vertrouwen echter op een "remasking"-mechanisme dat alleen de meest zelfverzekerde tokens decodeert en de rest wegwerpt, wat effectief rekenkracht verspilt. Wij tonen aan dat het recyclen van rekenkracht van de weggegooide tokens voordelig is, omdat deze tokens contextuele informatie behouden die nuttig is voor volgende decodeerstappen. Met dit in gedachten stellen wij Residual Context Diffusion (RCD) voor, een module die deze weggegooide tokenrepresentaties omzet in contextuele residuen en deze opnieuw injecteert voor de volgende denoising-stap. RCD gebruikt een ontkoppelde tweefasige trainingspijplijn om de geheugenknelpunten die gepaard gaan met backpropagatie te omzeilen. Wij valideren onze methode op zowel lange CoT-redeneermodellen (SDAR) als korte CoT-instructievolgende modellen (LLaDA). Wij tonen aan dat een standaard dLLM efficiënt kan worden omgezet naar het RCD-paradigma met slechts ~1 miljard tokens. RCD verbetert frontier dLLM's consistent met 5-10 punten in nauwkeurigheid met minimale extra rekenkosten over een breed scala aan benchmarks. Opmerkelijk is dat RCD bij de meest uitdagende AIME-taken de basislijnnauwkeurigheid bijna verdubbelt en tot 4-5x minder denoising-stappen bereikt bij gelijke nauwkeurigheidsniveaus.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely on a "remasking" mechanism that decodes only the most confident tokens and discards the rest, effectively wasting computation. We demonstrate that recycling computation from the discarded tokens is beneficial, as these tokens retain contextual information useful for subsequent decoding iterations. In light of this, we propose Residual Context Diffusion (RCD), a module that converts these discarded token representations into contextual residuals and injects them back for the next denoising step. RCD uses a decoupled two-stage training pipeline to bypass the memory bottlenecks associated with backpropagation. We validate our method on both long CoT reasoning (SDAR) and short CoT instruction following (LLaDA) models. We demonstrate that a standard dLLM can be efficiently converted to the RCD paradigm with merely ~1 billion tokens. RCD consistently improves frontier dLLMs by 5-10 points in accuracy with minimal extra computation overhead across a wide range of benchmarks. Notably, on the most challenging AIME tasks, RCD nearly doubles baseline accuracy and attains up to 4-5x fewer denoising steps at equivalent accuracy levels.