Lokal selbstbewusst, global blockiert: Das Qualitäts-Explorations-Dilemma in Diffusion Language Models
Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models
April 1, 2026
Autoren: Liancheng Fang, Aiwei Liu, Henry Peng Zou, Yankai Chen, Enze Ma, Leyi Pan, Chunyu Miao, Wei-Chieh Huang, Xue Liu, Philip S. Yu
cs.AI
Zusammenfassung
Diffusionsbasierte große Sprachmodelle (dLLMs) erlauben theoretisch eine Dekodierung von Tokens in beliebiger Reihenfolge, eine Flexibilität, die eine reichere Erkundung von Denkpfaden ermöglichen könnte als autoregressive (AR) LLMs. In der Praxis schadet jedoch eine Dekodierung in zufälliger Reihenfolge oft der Generierungsqualität. Um dies abzumildern, verbessert das Remasken mit niedrigem Konfidenzniveau die Qualität einzelner Stichproben (z.B. Pass@1), indem es Tokens mit hoher Konfidenz priorisiert. Dies unterdrückt jedoch auch die Erkundung und begrenzt die Gewinne bei mehreren Stichproben (z.B. Pass@k), was ein grundlegendes Dilemma zwischen Qualität und Erkundung schafft. In diesem Artikel liefern wir eine einheitliche Erklärung für dieses Dilemma. Wir zeigen, dass das Remasken mit niedrigem Konfidenzniveau einen kurzsichtigen Stellvertreter für die Qualität verbessert, während es gleichzeitig nachweislich die Entropie der induzierten Sequenzverteilung einschränkt. Um diese Einschränkung zu überwinden, charakterisieren wir die optimale Verteilung, die Qualität und Erkundung explizit austariert, und entwickeln einen einfachen Independent Metropolis-Hastings-Sampler, der diese Verteilung während der Dekodierung annähernd anstrebt. Experimente über eine Reihe von Reasoning-Benchmarks, darunter MATH500, AIME24/25, HumanEval und MBPP, zeigen, dass unser Ansatz eine bessere Exploration-Qualität-Abwägung liefert als sowohl zufälliges als auch konfidenzarmes Remasken.
English
Diffusion large language models (dLLMs) theoretically permit token decoding in arbitrary order, a flexibility that could enable richer exploration of reasoning paths than autoregressive (AR) LLMs. In practice, however, random-order decoding often hurts generation quality. To mitigate this, low-confidence remasking improves single-sample quality (e.g., Pass@1) by prioritizing confident tokens, but it also suppresses exploration and limits multi-sample gains (e.g., Pass@k), creating a fundamental quality--exploration dilemma. In this paper, we provide a unified explanation of this dilemma. We show that low-confidence remasking improves a myopic proxy for quality while provably constraining the entropy of the induced sequence distribution. To overcome this limitation, we characterize the optimal distribution that explicitly balances quality and exploration, and develop a simple Independent Metropolis--Hastings sampler that approximately targets this distribution during decoding. Experiments across a range of reasoning benchmarks including MATH500, AIME24/25, HumanEval, and MBPP show that our approach yields better exploration-quality tradeoff than both random and low-confidence remasking.