Локальная уверенность, глобальный тупик: дилемма качества и исследования в диффузионных языковых моделях
Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models
April 1, 2026
Авторы: Liancheng Fang, Aiwei Liu, Henry Peng Zou, Yankai Chen, Enze Ma, Leyi Pan, Chunyu Miao, Wei-Chieh Huang, Xue Liu, Philip S. Yu
cs.AI
Аннотация
Диффузионные большие языковые модели (dLLM) теоретически допускают декодирование токенов в произвольном порядке, что обеспечивает гибкость, потенциально позволяющую более богатое исследование путей рассуждений по сравнению с авторегрессионными (AR) LLM. Однако на практике декодирование в случайном порядке часто ухудшает качество генерации. Чтобы смягчить это, повторное маскирование малодостоверных токенов повышает качество единичного сэмпла (например, Pass@1), расставляя приоритеты уверенным токенам, но при этом подавляет исследование и ограничивает выигрыш для множественных сэмплов (например, Pass@k), создавая фундаментальную дилемму «качество–исследование». В данной статье мы даем единое объяснение этой дилеммы. Мы показываем, что повторное маскирование малодостоверных токенов улучшает миопический суррогат качества, при этом доказуемо ограничивая энтропию индуцированного распределения последовательностей. Чтобы преодолеть это ограничение, мы характеризуем оптимальное распределение, которое явно балансирует качество и исследование, и разрабатываем простой сэмплер Независимого Метрополиса–Гастингса, который приближенно нацеливается на это распределение в процессе декодирования. Эксперименты на ряде бенчмарков для оценки рассуждений, включая MATH500, AIME24/25, HumanEval и MBPP, показывают, что наш подход обеспечивает лучшее соотношение между исследованием и качеством, чем как случайное маскирование, так и маскирование малодостоверных токенов.
English
Diffusion large language models (dLLMs) theoretically permit token decoding in arbitrary order, a flexibility that could enable richer exploration of reasoning paths than autoregressive (AR) LLMs. In practice, however, random-order decoding often hurts generation quality. To mitigate this, low-confidence remasking improves single-sample quality (e.g., Pass@1) by prioritizing confident tokens, but it also suppresses exploration and limits multi-sample gains (e.g., Pass@k), creating a fundamental quality--exploration dilemma. In this paper, we provide a unified explanation of this dilemma. We show that low-confidence remasking improves a myopic proxy for quality while provably constraining the entropy of the induced sequence distribution. To overcome this limitation, we characterize the optimal distribution that explicitly balances quality and exploration, and develop a simple Independent Metropolis--Hastings sampler that approximately targets this distribution during decoding. Experiments across a range of reasoning benchmarks including MATH500, AIME24/25, HumanEval, and MBPP show that our approach yields better exploration-quality tradeoff than both random and low-confidence remasking.