Arrêtez le Va-et-vient : Vérification Préservant le Contexte pour un Décodage par Diffusion Rapide et Réversible

papers.abstract

La décodage par diffusion parallèle peut accélérer l'inférence des modèles de langage par diffusion en démasquant plusieurs tokens par étape, mais un parallélisme agressif nuit souvent à la qualité. Le décodage révocable atténue ce problème en revérifiant les tokens antérieurs, mais nous observons que les schémas de vérification existants déclenchent fréquemment des oscillations de bascule, où les tokens sont remasqués puis restaurés ultérieurement sans changement. Ce comportement ralentit l'inférence de deux manières : le remasquage des positions vérifiées affaiblit le contexte de conditionnement pour le drafting parallèle, et les cycles de remasquage répétés consomment le budget de révision avec peu de progrès net. Nous proposons COVER (Cache Override Verification for Efficient Revision), qui effectue une vérification leave-one-out et un drafting stable en une seule passe avant. COVER construit deux vues d'attention via le remplacement du cache KV : les tokens sélectionnés sont masqués pour la vérification, tandis que leurs états clés-valeurs en cache sont injectés pour toutes les autres requêtes afin de préserver l'information contextuelle, avec une correction diagonale de forme fermée empêchant la fuite d'auto-influence aux positions des tokens vérifiés. COVER priorise en outre les tokens à vérifier à l'aide d'un score de stabilité qui équilibre l'incertitude, l'influence en aval et la dérive du cache, et adapte le nombre de tokens vérifiés par étape. Sur divers benchmarks, COVER réduit notablement les révisions inutiles et permet un décodage plus rapide tout en préservant la qualité de la sortie.

English

Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.

Arrêtez le Va-et-vient : Vérification Préservant le Contexte pour un Décodage par Diffusion Rapide et Réversible

Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding

papers.abstract

Support