Ferma il Flip-Flop: Verifica Preservante il Contesto per una Decodifica Diffusiva Rapida e Revocabile
Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding
February 5, 2026
Autori: Yanzheng Xiang, Lan Wei, Yizhen Yao, Qinglin Zhu, Hanqi Yan, Chen Jin, Philip Alexander Teare, Dandan Zhang, Lin Gui, Amrutha Saseendran, Yulan He
cs.AI
Abstract
La decodifica a diffusione parallela può accelerare l'inferenza dei modelli linguistici basati su diffusione smascherando più token per passo, ma un parallelismo aggressivo spesso compromette la qualità. La decodifica revocabile mitiga questo problema ricontrollando i token precedenti, tuttavia osserviamo che gli schemi di verifica esistenti innescano frequentemente oscillazioni di tipo "flip-flop", dove i token vengono nuovamente mascherati per poi essere ripristinati invariati. Questo comportamento rallenta l'inferenza in due modi: il rimascheramento di posizioni verificate indebolisce il contesto di condizionamento per la stesura parallela, e i cicli di rimascheramento ripetuti consumano il budget di revisione con scarso progresso netto. Proponiamo COVER (Cache Override Verification for Efficient Revision), che esegue una verifica "leave-one-out" e una stesura stabile in un unico passaggio in avanti. COVER costruisce due viste dell'attenzione tramite l'override della cache KV: i seed selezionati vengono mascherati per la verifica, mentre i loro stati cached di chiave-valore vengono iniettati per tutte le altre query per preservare l'informazione contestuale, con una correzione diagonale in forma chiusa che previene l'autofuga alle posizioni dei seed. COVER priorizza ulteriormente i seed utilizzando un punteggio di stabilità che bilancia incertezza, influenza a valle e deriva della cache, e adatta il numero di seed verificati per passo. Su diversi benchmark, COVER riduce marcatamente le revisioni non necessarie e produce una decodifica più veloce preservando la qualità dell'output.
English
Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.