Scalatura al Tempo di Test nei Modelli Linguistici Diffusivi tramite Esperti Semi-Autoregressivi Nascosti
Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts
October 6, 2025
Autori: Jihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi
cs.AI
Abstract
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sono addestrati in modo flessibile per modellare dipendenze estreme nella distribuzione dei dati; tuttavia, come sfruttare al meglio queste informazioni durante l'inferenza rimane un problema aperto. In questo lavoro, scopriamo una proprietà interessante di questi modelli: i dLLM addestrati su dati testuali apprendono implicitamente una miscela di esperti semi-autoregressivi, dove diversi ordini di generazione rivelano comportamenti specializzati differenti. Dimostriamo che l'adozione di un singolo schema fisso durante l'inferenza, una pratica comune, compromette le prestazioni poiché non sfrutta questo insieme latente. Per affrontare questo problema, introduciamo HEX (Hidden semiautoregressive EXperts for test-time scaling), un metodo di inferenza senza addestramento che combina diversi schemi di blocchi eterogenei. Effettuando un voto a maggioranza su percorsi di generazione con dimensioni di blocco diverse, HEX evita in modo robusto i modi di fallimento associati a qualsiasi schema fisso. Su benchmark di ragionamento come GSM8K, aumenta l'accuratezza fino a 3,56 volte (dal 24,72% all'88,10%), superando l'inferenza con margine top-K e metodi specializzati come GRPO, senza ulteriore addestramento. HEX produce anche miglioramenti significativi sul benchmark MATH, passando dal 16,40% al 40,00%, sul ragionamento scientifico su ARC-C dal 54,18% all'87,80%, e su TruthfulQA dal 28,36% al 57,46%. I nostri risultati stabiliscono un nuovo paradigma per il ridimensionamento durante l'inferenza nei dLLM basati su diffusione, rivelando che la sequenza in cui viene eseguita la maschera gioca un ruolo cruciale nel determinare le prestazioni durante l'inferenza.
English
Diffusion-based large language models (dLLMs) are trained flexibly to model
extreme dependence in the data distribution; however, how to best utilize this
information at inference time remains an open problem. In this work, we uncover
an interesting property of these models: dLLMs trained on textual data
implicitly learn a mixture of semi-autoregressive experts, where different
generation orders reveal different specialized behaviors. We show that
committing to any single, fixed inference time schedule, a common practice,
collapses performance by failing to leverage this latent ensemble. To address
this, we introduce HEX (Hidden semiautoregressive EXperts for test-time
scaling), a training-free inference method that ensembles across heterogeneous
block schedules. By doing a majority vote over diverse block-sized generation
paths, HEX robustly avoids failure modes associated with any single fixed
schedule. On reasoning benchmarks such as GSM8K, it boosts accuracy by up to
3.56X (from 24.72% to 88.10%), outperforming top-K margin inference and
specialized fine-tuned methods like GRPO, without additional training. HEX even
yields significant gains on MATH benchmark from 16.40% to 40.00%, scientific
reasoning on ARC-C from 54.18% to 87.80%, and TruthfulQA from 28.36% to 57.46%.
Our results establish a new paradigm for test-time scaling in diffusion-based
LLMs (dLLMs), revealing that the sequence in which masking is performed plays a
critical role in determining performance during inference.