Прекратите неопределённость: контекстно-сохраняющая верификация для быстрого отменяемого декодирования диффузии

Аннотация

Параллельное диффузионное декодирование может ускорить вывод в диффузионных языковых моделях за счет раскрытия нескольких токенов за шаг, однако агрессивный параллелизм часто ухудшает качество. Отзывное декодирование смягчает эту проблему путем повторной проверки ранее раскрытых токенов, однако мы наблюдаем, что существующие схемы верификации часто провоцируют колебания типа "флип-флоп", когда токены повторно маскируются, а позже восстанавливаются без изменений. Такое поведение замедляет вывод двумя способами: повторное маскирование верифицированных позиций ослабляет контекст условности для параллельного drafting-а, а повторяющиеся циклы повторного маскирования расходуют бюджет ревизий с минимальным реальным прогрессом. Мы предлагаем метод COVER (Verification with Cache Override for Efficient Revision — верификация с переопределением кэша для эффективной ревизии), который выполняет верификацию по принципу "исключения одного" и стабильный drafting за один прямой проход. COVER строит два представления внимания через переопределение KV-кэша: выбранные "семена" маскируются для верификации, в то время как их кэшированные состояния ключей и значений инжектируются для всех остальных запросов, чтобы сохранить контекстуальную информацию, при этом используется поправка в замкнутой форме для предотвращения утечки самовлияния на позициях семян. COVER дополнительно приоритизирует семена с помощью стабильностно-ориентированной оценки, балансирующей неопределенность, влияние на последующие токены и дрейф кэша, и адаптивно регулирует количество верифицируемых семян на шаг. На различных бенчмарках COVER значительно сокращает ненужные ревизии и обеспечивает более быстрый декодинг при сохранении качества выходных данных.

English

Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.

Прекратите неопределённость: контекстно-сохраняющая верификация для быстрого отменяемого декодирования диффузии

Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding

Аннотация

Support