Stop de Flip-Flop: Context-bewarende verificatie voor snelle herroepbare diffusiedecodering

Samenvatting

Parallelle diffusiedecodering kan de inferentie van diffusietaalmodellen versnellen door meerdere tokens per stap te onthullen, maar agressieve parallelisatie gaat vaak ten koste van de kwaliteit. Herroepbare decodering vermindert dit door eerdere tokens opnieuw te controleren, maar wij observeren dat bestaande verificatieschema's vaak leiden tot flip-flop oscillaties, waarbij tokens opnieuw worden gemaskeerd en later ongewijzigd worden hersteld. Dit gedrag vertraagt de inferentie op twee manieren: het opnieuw maskeren van geverifieerde posities verzwakt de conditionerende context voor parallelle drafting, en herhaalde remask-cycli verbruiken het revisiebudget met weinig netto vooruitgang. Wij stellen COVER voor (Cache Override Verification for Efficient Revision), dat leave-one-out-verificatie en stabiele drafting uitvoert binnen een enkele voorwaartse pass. COVER construeert twee aandachtsperspectieven via KV-cache-override: geselecteerde seeds worden gemaskeerd voor verificatie, terwijl hun gecachede key-value-toestanden worden geïnjecteerd voor alle andere queries om contextuele informatie te behouden, met een gesloten-vorm diagonale correctie die zelf-lekkage op de seedposities voorkomt. COVER prioriteert seeds verder met een stabiliteitsbewuste score die onzekerheid, downstream-invloed en cache-drift balanceert, en het past het aantal geverifieerde seeds per stap aan. Over benchmarks heen vermindert COVER merkbaar onnodige revisies en levert het snellere decodering op terwijl de uitvoerkwaliteit behouden blijft.

English

Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.

Stop de Flip-Flop: Context-bewarende verificatie voor snelle herroepbare diffusiedecodering

Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding

Samenvatting

Support