Stoppt das Hin und Her: Kontextbewahrende Verifikation für schnelle revidierbare Diffusionsdekodierung

papers.abstract

Parallele Diffusionsdekodierung kann die Inferenz von Diffusionssprachmodellen beschleunigen, indem mehrere Token pro Schritt enthüllt werden, doch aggressive Parallelität beeinträchtigt häufig die Qualität. Revocable Decoding mildert dies durch eine erneute Überprüfung früherer Token, jedoch beobachten wir, dass bestehende Verifikationsverfahren häufig Flip-Flop-Oszillationen auslösen, bei denen Token erneut maskiert und später unverändert wiederhergestellt werden. Dieses Verhalten verlangsamt die Inferenz auf zweierlei Weise: Das erneute Maskieren verifizierter Positionen schwächt den Konditionierungskontext für den parallelen Entwurf, und wiederholte Remask-Zyklen verbrauchen das Revisionsbudget mit geringem Nettofortschritt. Wir schlagen COVER (Cache Override Verification for Efficient Revision) vor, das Leave-One-Out-Verifikation und stabilen Entwurf in einem einzigen Vorwärtsdurchlauf durchführt. COVER konstruiert zwei Aufmerksamkeitsansichten via KV-Cache-Override: Ausgewählte Seed-Token werden zur Verifikation maskiert, während ihre zwischengespeicherten Key-Value-Zustände für alle anderen Queries injiziert werden, um Kontextinformationen zu erhalten, wobei eine geschlossene diagonale Korrektion Selbst-Durchsickerung an den Seed-Positionen verhindert. COVER priorisiert Seeds weiterhin anhand eines stabilitätsbewussten Scores, der Unsicherheit, downstream Einfluss und Cache-Drift abwägt, und passt die Anzahl der verifizierten Seeds pro Schritt an. In Benchmarks reduziert COVER unnötige Revisionen deutlich und ermöglicht eine schnellere Dekodierung bei Erhalt der Ausgabequalität.

English

Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.

Stoppt das Hin und Her: Kontextbewahrende Verifikation für schnelle revidierbare Diffusionsdekodierung

Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding

papers.abstract

Support