Test-Tijd Schalen in Diffusie LLM's via Verborgen Semi-Autoregressieve Experts
Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts
October 6, 2025
Auteurs: Jihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi
cs.AI
Samenvatting
Diffusie-gebaseerde grote taalmodellen (dLLMs) worden flexibel getraind om extreme afhankelijkheden in de dataverdeling te modelleren; hoe deze informatie echter het beste kan worden benut tijdens inferentie blijft een open probleem. In dit werk ontdekken we een interessante eigenschap van deze modellen: dLLMs die op tekstuele data zijn getraind, leren impliciet een mengsel van semi-autoregressieve experts, waarbij verschillende generatievolgordes verschillende gespecialiseerde gedragingen onthullen. We laten zien dat het vasthouden aan een enkele, vaste inferentievolgorde, een gangbare praktijk, de prestaties ondermijnt doordat dit latente ensemble niet wordt benut. Om dit aan te pakken, introduceren we HEX (Hidden semiautoregressive EXperts for test-time scaling), een trainingsvrije inferentiemethode die ensemblet over heterogene blokvolgordes. Door een meerderheidsstemming uit te voeren over diverse generatiepaden met verschillende blokgroottes, vermijdt HEX robuust faalmodi die geassocieerd zijn met een enkele vaste volgorde. Op redeneerbenchmarks zoals GSM8K verhoogt het de nauwkeurigheid tot wel 3,56X (van 24,72% naar 88,10%), wat beter presteert dan top-K marge-inferentie en gespecialiseerde fine-tuning methoden zoals GRPO, zonder extra training. HEX levert zelfs significante verbeteringen op de MATH benchmark van 16,40% naar 40,00%, wetenschappelijk redeneren op ARC-C van 54,18% naar 87,80%, en TruthfulQA van 28,36% naar 57,46%. Onze resultaten vestigen een nieuw paradigma voor test-time scaling in diffusie-gebaseerde LLMs (dLLMs), waarbij blijkt dat de volgorde waarin masking wordt uitgevoerd een cruciale rol speelt bij het bepalen van de prestaties tijdens inferentie.
English
Diffusion-based large language models (dLLMs) are trained flexibly to model
extreme dependence in the data distribution; however, how to best utilize this
information at inference time remains an open problem. In this work, we uncover
an interesting property of these models: dLLMs trained on textual data
implicitly learn a mixture of semi-autoregressive experts, where different
generation orders reveal different specialized behaviors. We show that
committing to any single, fixed inference time schedule, a common practice,
collapses performance by failing to leverage this latent ensemble. To address
this, we introduce HEX (Hidden semiautoregressive EXperts for test-time
scaling), a training-free inference method that ensembles across heterogeneous
block schedules. By doing a majority vote over diverse block-sized generation
paths, HEX robustly avoids failure modes associated with any single fixed
schedule. On reasoning benchmarks such as GSM8K, it boosts accuracy by up to
3.56X (from 24.72% to 88.10%), outperforming top-K margin inference and
specialized fine-tuned methods like GRPO, without additional training. HEX even
yields significant gains on MATH benchmark from 16.40% to 40.00%, scientific
reasoning on ARC-C from 54.18% to 87.80%, and TruthfulQA from 28.36% to 57.46%.
Our results establish a new paradigm for test-time scaling in diffusion-based
LLMs (dLLMs), revealing that the sequence in which masking is performed plays a
critical role in determining performance during inference.