Когда уверенность вводит в заблуждение: суффиксное якорение и модуляция уверенности по близости к якорю для диффузионных языковых моделей

Аннотация

Диффузионные языковые модели декодируют текст путем итеративного устранения шума из замаскированных последовательностей токенов, что делает выбор позиций для декодирования ключевым решением на этапе инференса. Большинство стратегий декодирования без обучения используют уверенность модели для выбора позиций, предполагая, что позиции с высокой уверенностью готовы к декодированию. В данной работе мы пересматриваем это предположение, изучая случаи, когда уверенность вводит в заблуждение полностью неавторегрессивное (полностью не-АР) декодирование. Токены EOT могут получать высокую уверенность и вызывать неполную генерацию; вставка суффиксного якоря может смягчить эту проблему, но приводит к локальной избыточной уверенности рядом с якорем, из-за чего смежные с якорем токены декодируются слишком рано. Для решения этих проблем мы предлагаем модуляцию уверенности с якорным суффиксом (Suffix-Anchored Confidence Modulation) — простой метод без обучения, который вставляет короткий суффиксный якорь для стимулирования завершения ответа и модулирует уверенность рядом с якорем в зависимости от прогресса декодирования. Это сохраняет преимущество суффиксного якорения в завершении ответа, одновременно уменьшая преждевременное декодирование смежных с якорем токенов. На бенчмарках текстового рассуждения, визуально-языкового рассуждения и генерации кода наш метод последовательно улучшает основанное на уверенности полностью не-АР декодирование, превосходит явное подавление EOT и сохраняет преимущество параллельного декодирования, характерное для полностью не-АР генерации.

English

Diffusion language models decode text by iteratively denoising masked token sequences, making the choice of which positions to decode a central inference-time decision. Most training-free decoding strategies use model confidence for position selection, assuming that high-confidence positions are ready to be decoded. In this work, we revisit this assumption by studying when confidence misleads fully non-autoregressive (fully non-AR) decoding. EOT tokens can receive high confidence and cause incomplete generation; inserting a suffix anchor can mitigate this issue but introduces local overconfidence near the anchor, causing anchor-adjacent tokens to be decoded too early. To address these issues, we propose Suffix-Anchored Confidence Modulation, a simple training-free method that inserts a short suffix anchor to encourage response completion and modulates confidence near the anchor according to decoding progress. This preserves the response-completion benefit of suffix anchoring while reducing premature decoding of anchor-adjacent tokens. Across text-only reasoning, vision-language reasoning, and code-generation benchmarks, our method consistently improves confidence-based fully non-AR decoding, outperforms explicit EOT suppression, and preserves the parallel decoding advantage of fully non-AR generation.