Detén el Cambio de Dirección: Verificación que Preserva el Contexto para una Decodificación Difusa Revocable Rápida

Resumen

La decodificación por difusión paralela puede acelerar la inferencia de los modelos de lenguaje de difusión desenmascarando múltiples tokens por paso, pero el paralelismo agresivo a menudo perjudica la calidad. La decodificación revocable mitiga esto mediante la revisión de tokens anteriores; sin embargo, observamos que los esquemas de verificación existentes frecuentemente desencadenan oscilaciones de tipo "flip-flop", donde los tokens se vuelven a enmascarar y luego se restauran sin cambios. Este comportamiento ralentiza la inferencia de dos maneras: el reenmascaramiento de posiciones verificadas debilita el contexto de condicionamiento para el borrador paralelo, y los ciclos repetidos de reenmascaramiento consumen el presupuesto de revisión con un progreso neto mínimo. Proponemos COVER (Verificación por Anulación de Caché para una Revisión Eficiente), que realiza una verificación "leave-one-out" y un borrado estable en una sola pasada hacia adelante. COVER construye dos vistas de atención mediante la anulación de la caché KV: las semillas seleccionadas se enmascaran para su verificación, mientras que sus estados clave-valor en caché se inyectan para todas las demás consultas para preservar la información contextual, utilizando una corrección diagonal de forma cerrada que evita la filtración propia en las posiciones de semilla. COVER prioriza además las semillas utilizando una puntuación consciente de la estabilidad que equilibra la incertidumbre, la influencia descendente y la deriva de la caché, y adapta el número de semillas verificadas por paso. En diversos benchmarks, COVER reduce notablemente las revisiones innecesarias y produce una decodificación más rápida preservando la calidad de la salida.

English

Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.

Detén el Cambio de Dirección: Verificación que Preserva el Contexto para una Decodificación Difusa Revocable Rápida

Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding

Resumen

Support