Flip-Flop 현상 방지: 고속 취소 가능 확산 디코딩을 위한 맥락 보존 검증
Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding
February 5, 2026
저자: Yanzheng Xiang, Lan Wei, Yizhen Yao, Qinglin Zhu, Hanqi Yan, Chen Jin, Philip Alexander Teare, Dandan Zhang, Lin Gui, Amrutha Saseendran, Yulan He
cs.AI
초록
병렬 디퓨전 디코딩은 단계당 여러 토큰을 언마스킹하여 디퓨전 언어 모델 추론을 가속화할 수 있지만, 과도한 병렬화는 종종 품질 저하를 초래합니다. 취소 가능 디코딩은 이전 토큰을 재확인하여 이를 완화하지만, 기존 검증 방식이 플립-플롭 진동(토큰이 재마스킹되었다가 나중에 변경 없이 복원되는 현상)을 빈번히 유발함을 관찰했습니다. 이는 두 가지 방식으로 추론 속도를 저하시킵니다: 검증된 위치의 재마스킹은 병렬 드래프팅을 위한 조건화 컨텍스트를 약화시키며, 반복된 재마스킹 주기는 수정 예산을 소모하면서 순 진전이 거의 이루어지지 않습니다. 우리는 단일 정방향 패스 내에서 leave-one-out 검증과 안정적 드래프팅을 수행하는 COVER(Cache Override Verification for Efficient Revision)를 제안합니다. COVER는 KV 캐시 오버라이드를 통해 두 가지 어텐션 뷰를 구성합니다: 선택된 시드 토큰은 검증을 위해 마스킹되는 반면, 해당 캐시된 키-값 상태는 다른 모든 쿼리에 주입되어 컨텍스트 정보를 보존하며, 시드 위치에서의 자기 유출(self-leakage)을 방지하기 위한 폐쇄형 대각 보정이 적용됩니다. COVER는 또한 불확실성, 하류 영향력 및 캐시 드리프트를 균형 있게 고려하는 안정성 인식 점수를 사용하여 시드 토큰의 우선순위를 지정하고, 단계별 검증 시드 수를 적응적으로 조정합니다. 다양한 벤치마크에서 COVER는 불필요한 수정을 현저히 줄이고 출력 품질을 유지하면서 더 빠른 디코딩 속도를 제공합니다.
English
Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.