ChatPaper.aiChatPaper

Pare com a Inconsistência: Verificação de Preservação de Contexto para Decodificação Difusiva Revogável Rápida

Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding

February 5, 2026
Autores: Yanzheng Xiang, Lan Wei, Yizhen Yao, Qinglin Zhu, Hanqi Yan, Chen Jin, Philip Alexander Teare, Dandan Zhang, Lin Gui, Amrutha Saseendran, Yulan He
cs.AI

Resumo

A descodificação por difusão paralela pode acelerar a inferência de modelos de linguagem de difusão ao desmascarar múltiplos tokens por passo, mas um paralelismo agressivo prejudica frequentemente a qualidade. A descodificação revogável mitiga isto ao reverificar tokens anteriores, contudo, observamos que os esquemas de verificação existentes desencadeiam frequentemente oscilações de "flip-flop", onde tokens são remascarados e posteriormente restaurados inalterados. Este comportamento atrasa a inferência de duas formas: remascarar posições verificadas enfraquece o contexto de condicionamento para o rascunho paralelo, e ciclos repetidos de remascaragem consomem o orçamento de revisão com pouco progresso líquido. Propomos o COVER (Verificação por Substituição de Cache para Revisão Eficiente), que realiza verificação "leave-one-out" e rascunho estável numa única passagem direta. O COVER constrói duas visões de atenção via substituição da cache KV: sementes selecionadas são mascaradas para verificação, enquanto os seus estados de chave-valor em cache são injetados para todas as outras consultas para preservar informação contextual, com uma correção diagonal de forma fechada a prevenir auto-fuga nas posições de semente. O COVER prioriza ainda as sementes usando uma pontuação consciente da estabilidade que equilibra incerteza, influência a jusante e deriva da cache, e adapta o número de sementes verificadas por passo. Em vários benchmarks, o COVER reduz marcadamente revisões desnecessárias e produz descodificação mais rápida, preservando a qualidade da saída.
English
Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.
PDF43March 19, 2026