Lokaal Zelfverzekerd, Wereldwijd Vast: Het Kwaliteit-Exploratie Dilemma bij Diffusion Taalmodellen

Samenvatting

Diffusie grote taalmodellen (dLLM's) staan in theorie het decoderen van tokens in willekeurige volgorde toe, een flexibiliteit die een rijkere verkenning van redeneerpaden zou kunnen mogelijk maken dan bij autoregressieve (AR) LLM's. In de praktijk leidt decodering in willekeurige volgorde echter vaak tot een verminderde generatiekwaliteit. Om dit te verhelpen verbetert *low-confidence remasking* de kwaliteit van een enkel sample (bijv. Pass@1) door tokens met een hoge betrouwbaarheid voorrang te geven, maar het onderdrukt ook de verkenning en beperkt de winst bij meerdere samples (bijv. Pass@k), wat een fundamenteel kwaliteit-verkenning-dilemma creëert. In dit artikel geven we een verenigende verklaring voor dit dilemma. We tonen aan dat *low-confidence remasking* een kortzichtige benadering van kwaliteit verbetert, terwijl het bewezen de entropie van de geïnduceerde sequentiedistributie beperkt. Om deze beperking te overwinnen, karakteriseren we de optimale distributie die expliciet een balans zoekt tussen kwaliteit en verkenning, en ontwikkelen we een eenvoudige *Independent Metropolis–Hastings*-steekproefnemer die deze distributie tijdens het decoderen benadert. Experimenten op een reeks redeneerbenchmarks, waaronder MATH500, AIME24/25, HumanEval en MBPP, tonen aan dat onze aanpak een betere afweging tussen verkenning en kwaliteit oplevert dan zowel willekeurige *remasking* als *low-confidence remasking*.

English

Diffusion large language models (dLLMs) theoretically permit token decoding in arbitrary order, a flexibility that could enable richer exploration of reasoning paths than autoregressive (AR) LLMs. In practice, however, random-order decoding often hurts generation quality. To mitigate this, low-confidence remasking improves single-sample quality (e.g., Pass@1) by prioritizing confident tokens, but it also suppresses exploration and limits multi-sample gains (e.g., Pass@k), creating a fundamental quality--exploration dilemma. In this paper, we provide a unified explanation of this dilemma. We show that low-confidence remasking improves a myopic proxy for quality while provably constraining the entropy of the induced sequence distribution. To overcome this limitation, we characterize the optimal distribution that explicitly balances quality and exploration, and develop a simple Independent Metropolis--Hastings sampler that approximately targets this distribution during decoding. Experiments across a range of reasoning benchmarks including MATH500, AIME24/25, HumanEval, and MBPP show that our approach yields better exploration-quality tradeoff than both random and low-confidence remasking.

Lokaal Zelfverzekerd, Wereldwijd Vast: Het Kwaliteit-Exploratie Dilemma bij Diffusion Taalmodellen

Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models

Samenvatting

Support