Test-Time-Skalierung in Diffusion-LLMs durch versteckte semi-autoregressive Experten
Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts
October 6, 2025
papers.authors: Jihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi
cs.AI
papers.abstract
Diffusionsbasierte große Sprachmodelle (dLLMs) werden flexibel trainiert, um extreme Abhängigkeiten in der Datenverteilung zu modellieren; jedoch bleibt die Frage, wie diese Informationen zur Inferenzzeit optimal genutzt werden können, ein offenes Problem. In dieser Arbeit entdecken wir eine interessante Eigenschaft dieser Modelle: dLLMs, die auf Textdaten trainiert wurden, lernen implizit eine Mischung von semi-autoregressiven Experten, bei denen unterschiedliche Generierungsreihenfolgen unterschiedliche spezialisierte Verhaltensweisen offenbaren. Wir zeigen, dass die Festlegung auf einen einzigen, festen Inferenzzeitplan, eine gängige Praxis, die Leistung beeinträchtigt, da dieses latente Ensemble nicht genutzt wird. Um dies zu beheben, führen wir HEX (Hidden Semiautoregressive EXperts for Test-Time Scaling) ein, eine trainingsfreie Inferenzmethode, die über heterogene Blockpläne hinweg ein Ensemble bildet. Durch eine Mehrheitsabstimmung über diverse Blockgrößen-Generierungspfade vermeidet HEX robust Fehlermodi, die mit einem einzigen festen Plan verbunden sind. Bei Reasoning-Benchmarks wie GSM8K steigert es die Genauigkeit um bis zu 3,56X (von 24,72 % auf 88,10 %), übertrifft dabei Top-K-Margin-Inferenz und spezialisierte Feinabstimmungsmethoden wie GRPO, ohne zusätzliches Training. HEX erzielt sogar signifikante Verbesserungen beim MATH-Benchmark von 16,40 % auf 40,00 %, beim wissenschaftlichen Reasoning auf ARC-C von 54,18 % auf 87,80 % und bei TruthfulQA von 28,36 % auf 57,46 %. Unsere Ergebnisse etablieren ein neues Paradigma für das Test-Time Scaling in diffusionsbasierten LLMs (dLLMs) und zeigen, dass die Reihenfolge, in der Maskierungen durchgeführt werden, eine entscheidende Rolle für die Leistung während der Inferenz spielt.
English
Diffusion-based large language models (dLLMs) are trained flexibly to model
extreme dependence in the data distribution; however, how to best utilize this
information at inference time remains an open problem. In this work, we uncover
an interesting property of these models: dLLMs trained on textual data
implicitly learn a mixture of semi-autoregressive experts, where different
generation orders reveal different specialized behaviors. We show that
committing to any single, fixed inference time schedule, a common practice,
collapses performance by failing to leverage this latent ensemble. To address
this, we introduce HEX (Hidden semiautoregressive EXperts for test-time
scaling), a training-free inference method that ensembles across heterogeneous
block schedules. By doing a majority vote over diverse block-sized generation
paths, HEX robustly avoids failure modes associated with any single fixed
schedule. On reasoning benchmarks such as GSM8K, it boosts accuracy by up to
3.56X (from 24.72% to 88.10%), outperforming top-K margin inference and
specialized fine-tuned methods like GRPO, without additional training. HEX even
yields significant gains on MATH benchmark from 16.40% to 40.00%, scientific
reasoning on ARC-C from 54.18% to 87.80%, and TruthfulQA from 28.36% to 57.46%.
Our results establish a new paradigm for test-time scaling in diffusion-based
LLMs (dLLMs), revealing that the sequence in which masking is performed plays a
critical role in determining performance during inference.