잔여 문맥 확산 언어 모델
Residual Context Diffusion Language Models
January 30, 2026
저자: Yuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu
cs.AI
초록
확산 대형 언어 모델(dLLM)은 여러 토큰을 병렬로 디코딩할 수 있어 순수 자동회귀 언어 모델의 유망한 대안으로 부상했습니다. 그러나 최첨단 블록 단위 dLLM은 가장 확신이 높은 토큰만 디코딩하고 나머지는 버리는 "재마스킹" 메커니즘에 의존하여 효과적으로 계산 자원을 낭비합니다. 우리는 버려진 토큰들의 계산을 재활용하는 것이 유익함을 입증합니다. 이러한 토큰들이 후속 디코딩 단계에 유용한 문맥 정보를 보유하고 있기 때문입니다. 이를 바탕으로, 우리는 버려진 토큰 표현을 문맥 잔차로 변환하여 다음 잡음 제거 단계에 다시 주입하는 모듈인 잔차 문맥 확산(RCD)을 제안합니다. RCD는 역전파와 관련된 메모리 병목 현상을 우회하기 위해 분리된 2단계 학습 파이프라인을 사용합니다. 우리는 긴 CoT 추론(SDAR)과 짧은 CoT 지시 따르기(LLaDA) 모델 모두에서 우리의 방법을 검증합니다. 표준 dLLM이 약 10억 토큰만으로도 RCD 패러다임으로 효율적으로 변환될 수 있음을 보여줍니다. RCD는 다양한 벤치마크에서 최소한의 추가 계산 오버헤드로 최신 dLLM의 정확도를 5-10포인트 지속적으로 향상시킵니다. 특히 가장 어려운 AIME 작업에서 RCD는 기준선 정확도를 거의 두 배로 높이며 동등한 정확도 수준에서 잡음 제거 단계를 최대 4-5배까지 줄입니다.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely on a "remasking" mechanism that decodes only the most confident tokens and discards the rest, effectively wasting computation. We demonstrate that recycling computation from the discarded tokens is beneficial, as these tokens retain contextual information useful for subsequent decoding iterations. In light of this, we propose Residual Context Diffusion (RCD), a module that converts these discarded token representations into contextual residuals and injects them back for the next denoising step. RCD uses a decoupled two-stage training pipeline to bypass the memory bottlenecks associated with backpropagation. We validate our method on both long CoT reasoning (SDAR) and short CoT instruction following (LLaDA) models. We demonstrate that a standard dLLM can be efficiently converted to the RCD paradigm with merely ~1 billion tokens. RCD consistently improves frontier dLLMs by 5-10 points in accuracy with minimal extra computation overhead across a wide range of benchmarks. Notably, on the most challenging AIME tasks, RCD nearly doubles baseline accuracy and attains up to 4-5x fewer denoising steps at equivalent accuracy levels.