Confiantes Localmente, Estagnados Globalmente: O Dilema Qualidade-Exploração em Modelos de Linguagem de Difusão

Resumo

Os modelos de linguagem de grande escala por difusão (dLLMs) permitem teoricamente a decodificação de tokens em ordem arbitrária, uma flexibilidade que poderia possibilitar uma exploração mais rica de caminhos de raciocínio do que os LLMs autoregressivos (AR). Na prática, no entanto, a decodificação em ordem aleatória frequentemente prejudica a qualidade da geração. Para mitigar isso, o remascaramento de baixa confiança melhora a qualidade de uma única amostra (por exemplo, Pass@1) ao priorizar tokens confiáveis, mas também suprime a exploração e limita os ganhos com múltiplas amostras (por exemplo, Pass@k), criando um dilema fundamental entre qualidade e exploração. Neste artigo, fornecemos uma explicação unificada para este dilema. Mostramos que o remascaramento de baixa confiança melhora um *proxy* míope para a qualidade, ao mesmo tempo que restringe comprovadamente a entropia da distribuição de sequências induzida. Para superar esta limitação, caracterizamos a distribuição ótima que equilibra explicitamente qualidade e exploração, e desenvolvemos um amostrador simples de Metropolis-Hastings Independente que visa aproximadamente esta distribuição durante a decodificação. Experimentos em uma série de benchmarks de raciocínio, incluindo MATH500, AIME24/25, HumanEval e MBPP, mostram que nossa abordagem produz um melhor compromisso entre exploração e qualidade do que o remascaramento aleatório e o de baixa confiança.

English

Diffusion large language models (dLLMs) theoretically permit token decoding in arbitrary order, a flexibility that could enable richer exploration of reasoning paths than autoregressive (AR) LLMs. In practice, however, random-order decoding often hurts generation quality. To mitigate this, low-confidence remasking improves single-sample quality (e.g., Pass@1) by prioritizing confident tokens, but it also suppresses exploration and limits multi-sample gains (e.g., Pass@k), creating a fundamental quality--exploration dilemma. In this paper, we provide a unified explanation of this dilemma. We show that low-confidence remasking improves a myopic proxy for quality while provably constraining the entropy of the induced sequence distribution. To overcome this limitation, we characterize the optimal distribution that explicitly balances quality and exploration, and develop a simple Independent Metropolis--Hastings sampler that approximately targets this distribution during decoding. Experiments across a range of reasoning benchmarks including MATH500, AIME24/25, HumanEval, and MBPP show that our approach yields better exploration-quality tradeoff than both random and low-confidence remasking.

Confiantes Localmente, Estagnados Globalmente: O Dilema Qualidade-Exploração em Modelos de Linguagem de Difusão

Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models

Resumo

Support