지역적 확신, 세계적 정체: 확산 언어 모델의 품질-탐색 딜레마
Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models
April 1, 2026
저자: Liancheng Fang, Aiwei Liu, Henry Peng Zou, Yankai Chen, Enze Ma, Leyi Pan, Chunyu Miao, Wei-Chieh Huang, Xue Liu, Philip S. Yu
cs.AI
초록
확산 대형 언어 모델(dLLM)은 이론적으로 임의의 순서로 토큰 디코딩을 허용하며, 이러한 유연성은 자기회귀(AR) LLM보다 더 풍부한 추론 경로 탐색을 가능하게 할 수 있습니다. 그러나 실제로 무작위 순서 디코딩은 생성 품질을 저하시키는 경우가 많습니다. 이를 완화하기 위해 낮은 신뢰도 재마스킹(low-confidence remasking)은 신뢰도가 높은 토큰을 우선시함으로써 단일 샘플 품질(예: Pass@1)을 향상시키지만, 동시에 탐색을 억제하고 다중 샘플 이득(예: Pass@k)을 제한하여 근본적인 품질-탐색 딜레마를 생성합니다. 본 논문에서는 이 딜레마에 대한 통합된 설명을 제시합니다. 우리는 낮은 신뢰도 재마스킹이 근시안적 품질 프록시를 향상시키는 동시에 유도된 시퀀스 분포의 엔트로피를 검증 가능하게 제약함을 보여줍니다. 이러한 한계를 극복하기 위해, 우리는 품질과 탐색을 명시적으로 균형 잡는 최적 분포를 규명하고, 디코딩 과정에서 이 분포를 근사적으로 목표로 하는 간단한 독립 메트로폴리스-헤이스팅스 샘플러를 개발합니다. MATH500, AIME24/25, HumanEval, MBPP를 포함한 다양한 추론 벤치마크에서의 실험 결과, 우리의 접근 방식이 무작위 및 낮은 신뢰도 재마스킹 모두보다 더 나은 탐색-품질 트레이드오프를 달성함을 보여줍니다.
English
Diffusion large language models (dLLMs) theoretically permit token decoding in arbitrary order, a flexibility that could enable richer exploration of reasoning paths than autoregressive (AR) LLMs. In practice, however, random-order decoding often hurts generation quality. To mitigate this, low-confidence remasking improves single-sample quality (e.g., Pass@1) by prioritizing confident tokens, but it also suppresses exploration and limits multi-sample gains (e.g., Pass@k), creating a fundamental quality--exploration dilemma. In this paper, we provide a unified explanation of this dilemma. We show that low-confidence remasking improves a myopic proxy for quality while provably constraining the entropy of the induced sequence distribution. To overcome this limitation, we characterize the optimal distribution that explicitly balances quality and exploration, and develop a simple Independent Metropolis--Hastings sampler that approximately targets this distribution during decoding. Experiments across a range of reasoning benchmarks including MATH500, AIME24/25, HumanEval, and MBPP show that our approach yields better exploration-quality tradeoff than both random and low-confidence remasking.