Localmente Seguros, Globalmente Estancados: El Dilema Calidad-Exploración en los Modelos de Lenguaje de Difusión

Resumen

Los modelos de lenguaje de difusión a gran escala (dLLMs) permiten teóricamente la decodificación de tokens en un orden arbitrario, una flexibilidad que podría permitir una exploración más rica de las rutas de razonamiento que los LLMs autoregresivos (AR). Sin embargo, en la práctica, la decodificación en orden aleatorio a menudo perjudica la calidad de la generación. Para mitigar esto, el reenmascaramiento de baja confianza mejora la calidad de una sola muestra (por ejemplo, Pass@1) al priorizar los tokens más confiables, pero también suprime la exploración y limita las ganancias con múltiples muestras (por ejemplo, Pass@k), creando un dilema fundamental entre calidad y exploración. En este artículo, ofrecemos una explicación unificada de este dilema. Demostramos que el reenmascaramiento de baja confianza mejora un proxy miope de la calidad mientras que, de manera demostrable, restringe la entropía de la distribución de secuencias inducida. Para superar esta limitación, caracterizamos la distribución óptima que equilibra explícitamente la calidad y la exploración, y desarrollamos un muestreador simple de Metropolis-Hastings Independiente que se aproxima a esta distribución objetivo durante la decodificación. Los experimentos en una variedad de benchmarks de razonamiento, como MATH500, AIME24/25, HumanEval y MBPP, muestran que nuestro método produce un mejor equilibrio entre exploración y calidad que el reenmascaramiento aleatorio y el de baja confianza.

English

Diffusion large language models (dLLMs) theoretically permit token decoding in arbitrary order, a flexibility that could enable richer exploration of reasoning paths than autoregressive (AR) LLMs. In practice, however, random-order decoding often hurts generation quality. To mitigate this, low-confidence remasking improves single-sample quality (e.g., Pass@1) by prioritizing confident tokens, but it also suppresses exploration and limits multi-sample gains (e.g., Pass@k), creating a fundamental quality--exploration dilemma. In this paper, we provide a unified explanation of this dilemma. We show that low-confidence remasking improves a myopic proxy for quality while provably constraining the entropy of the induced sequence distribution. To overcome this limitation, we characterize the optimal distribution that explicitly balances quality and exploration, and develop a simple Independent Metropolis--Hastings sampler that approximately targets this distribution during decoding. Experiments across a range of reasoning benchmarks including MATH500, AIME24/25, HumanEval, and MBPP show that our approach yields better exploration-quality tradeoff than both random and low-confidence remasking.

Localmente Seguros, Globalmente Estancados: El Dilema Calidad-Exploración en los Modelos de Lenguaje de Difusión

Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models

Resumen

Support