Confiant localement, bloqué globalement : le dilemme qualité-exploration dans les modèles de langage par diffusion

Résumé

Les modèles de langage à diffusion (dLLM) permettent théoriquement un décodage des tokens dans un ordre arbitraire, une flexibilité qui pourrait permettre une exploration plus riche des chemins de raisonnement que les LLM autogressifs (AR). En pratique, cependant, le décodage aléatoire nuit souvent à la qualité de la génération. Pour y remédier, le remasquage des tokens peu confiants améliore la qualité sur un seul échantillon (par exemple, Pass@1) en priorisant les tokens pour lesquels le modèle est confiant, mais il supprime également l'exploration et limite les gains sur plusieurs échantillons (par exemple, Pass@k), créant un dilemme fondamental entre qualité et exploration. Dans cet article, nous proposons une explication unifiée de ce dilemme. Nous montrons que le remasquage peu confiant améliore un indicateur de qualité myope tout en restreignant de manière prouvée l'entropie de la distribution de séquences induite. Pour surmonter cette limitation, nous caractérisons la distribution optimale qui équilibre explicitement la qualité et l'exploration, et nous développons un échantillonneur simple de type Independent Metropolis–Hastings qui cible approximativement cette distribution pendant le décodage. Les expériences sur une série de benchmarks de raisonnement, incluant MATH500, AIME24/25, HumanEval et MBPP, montrent que notre approche offre un meilleur compromis exploration-qualité que le remasquage aléatoire et le remasquage peu confiant.

English

Diffusion large language models (dLLMs) theoretically permit token decoding in arbitrary order, a flexibility that could enable richer exploration of reasoning paths than autoregressive (AR) LLMs. In practice, however, random-order decoding often hurts generation quality. To mitigate this, low-confidence remasking improves single-sample quality (e.g., Pass@1) by prioritizing confident tokens, but it also suppresses exploration and limits multi-sample gains (e.g., Pass@k), creating a fundamental quality--exploration dilemma. In this paper, we provide a unified explanation of this dilemma. We show that low-confidence remasking improves a myopic proxy for quality while provably constraining the entropy of the induced sequence distribution. To overcome this limitation, we characterize the optimal distribution that explicitly balances quality and exploration, and develop a simple Independent Metropolis--Hastings sampler that approximately targets this distribution during decoding. Experiments across a range of reasoning benchmarks including MATH500, AIME24/25, HumanEval, and MBPP show that our approach yields better exploration-quality tradeoff than both random and low-confidence remasking.

Confiant localement, bloqué globalement : le dilemme qualité-exploration dans les modèles de langage par diffusion

Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models

Résumé

Support