Modèles de langage à diffusion contextuelle résiduelle

papers.abstract

Les modèles de langage à diffusion de grande taille (dLLM) sont apparus comme une alternative prometteuse aux modèles de langage purement autogressifs car ils peuvent décoder plusieurs jetons en parallèle. Cependant, les dLLM par blocs les plus performants reposent sur un mécanisme de « remasquage » qui ne décode que les jetons les plus confiants et rejette les autres, gaspillant ainsi efficacement du calcul. Nous démontrons que le recyclage du calcul des jetons rejetés est bénéfique, car ces jetons conservent des informations contextuelles utiles pour les itérations de décodage ultérieures. Compte tenu de cela, nous proposons la Diffusion à Contexte Résiduel (RCD), un module qui convertit ces représentations de jetons rejetés en résidus contextuels et les réinjecte pour l'étape de débruitage suivante. La RCD utilise un pipeline d'entraînement découplé en deux étapes pour contourner les goulots d'étranglement mémoire associés à la rétropropagation. Nous validons notre méthode à la fois sur des modèles de raisonnement CoT longs (SDAR) et sur des modèles de suivi d'instructions CoT courts (LLaDA). Nous démontrons qu'un dLLM standard peut être efficacement converti au paradigme RCD avec seulement ~1 milliard de jetons. La RCD améliore systématiquement les dLLM de pointe de 5 à 10 points de précision avec une surcharge de calcul minimale sur un large éventail de benchmarks. Notamment, sur les tâches AIME les plus difficiles, la RCD double presque la précision de base et permet jusqu'à 4 à 5 fois moins d'étapes de débruitage à des niveaux de précision équivalents.

English

Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely on a "remasking" mechanism that decodes only the most confident tokens and discards the rest, effectively wasting computation. We demonstrate that recycling computation from the discarded tokens is beneficial, as these tokens retain contextual information useful for subsequent decoding iterations. In light of this, we propose Residual Context Diffusion (RCD), a module that converts these discarded token representations into contextual residuals and injects them back for the next denoising step. RCD uses a decoupled two-stage training pipeline to bypass the memory bottlenecks associated with backpropagation. We validate our method on both long CoT reasoning (SDAR) and short CoT instruction following (LLaDA) models. We demonstrate that a standard dLLM can be efficiently converted to the RCD paradigm with merely ~1 billion tokens. RCD consistently improves frontier dLLMs by 5-10 points in accuracy with minimal extra computation overhead across a wide range of benchmarks. Notably, on the most challenging AIME tasks, RCD nearly doubles baseline accuracy and attains up to 4-5x fewer denoising steps at equivalent accuracy levels.

Modèles de langage à diffusion contextuelle résiduelle

Residual Context Diffusion Language Models

papers.abstract

Support