Modelli Linguistici di Diffusione a Contesto Residuo

Abstract

I modelli linguistici diffusivi di grandi dimensioni (dLLM) si sono affermati come una valida alternativa ai modelli linguistici puramente autoregressivi grazie alla loro capacità di decodificare più token in parallelo. Tuttavia, i dLLM a blocchi più all'avanguardia si basano su un meccanismo di "rimascheramento" che decodifica solo i token con la confidenza più alta e scarta gli altri, sprecando di fatto potenza di calcolo. Dimostriamo che il riciclo del calcolo dai token scartati è vantaggioso, poiché questi token conservano informazioni contestuali utili per le iterazioni di decodifica successive. Alla luce di ciò, proponiamo la Diffusione a Contesto Residuo (RCD), un modulo che converte queste rappresentazioni di token scartati in residui contestuali e li reinietta nel passo di denoising successivo. L'RCD utilizza una pipeline di addestramento a due stadi disaccoppiati per aggirare i colli di bottiglia di memoria associati alla retropropagazione. Convalidiamo il nostro metodo sia su modelli di ragionamento a catena lunga (SDAR) che su modelli per il seguimento di istruzioni a catena corta (LLaDA). Dimostriamo che un dLLM standard può essere convertito efficientemente al paradigma RCD con appena ~1 miliardo di token. L'RCD migliora costantemente i dLLM di frontiera di 5-10 punti in accuratezza con un sovraccarico computazionale minimo su un'ampia gamma di benchmark. In particolare, sui compiti AIME più impegnativi, l'RCD quasi raddoppia l'accuratezza di base e raggiunge fino a 4-5 volte in meno passi di denoising a livelli di accuratezza equivalenti.

English

Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely on a "remasking" mechanism that decodes only the most confident tokens and discards the rest, effectively wasting computation. We demonstrate that recycling computation from the discarded tokens is beneficial, as these tokens retain contextual information useful for subsequent decoding iterations. In light of this, we propose Residual Context Diffusion (RCD), a module that converts these discarded token representations into contextual residuals and injects them back for the next denoising step. RCD uses a decoupled two-stage training pipeline to bypass the memory bottlenecks associated with backpropagation. We validate our method on both long CoT reasoning (SDAR) and short CoT instruction following (LLaDA) models. We demonstrate that a standard dLLM can be efficiently converted to the RCD paradigm with merely ~1 billion tokens. RCD consistently improves frontier dLLMs by 5-10 points in accuracy with minimal extra computation overhead across a wide range of benchmarks. Notably, on the most challenging AIME tasks, RCD nearly doubles baseline accuracy and attains up to 4-5x fewer denoising steps at equivalent accuracy levels.

Modelli Linguistici di Diffusione a Contesto Residuo

Residual Context Diffusion Language Models

Abstract

Support