Escalonamento em Tempo de Teste em LLMs de Difusão via Especialistas Semi-Autoregressivos Ocultos
Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts
October 6, 2025
Autores: Jihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi
cs.AI
Resumo
Modelos de linguagem baseados em difusão (dLLMs) são treinados de forma flexível para modelar dependências extremas na distribuição de dados; no entanto, como melhor utilizar essa informação durante a inferência permanece um problema em aberto. Neste trabalho, descobrimos uma propriedade interessante desses modelos: dLLMs treinados em dados textuais aprendem implicitamente uma mistura de especialistas semi-autorregressivos, onde diferentes ordens de geração revelam comportamentos especializados distintos. Mostramos que comprometer-se com qualquer esquema fixo de inferência, uma prática comum, colapsa o desempenho ao falhar em aproveitar esse conjunto latente. Para resolver isso, introduzimos o HEX (Hidden semiautoregressive EXperts for test-time scaling), um método de inferência sem treinamento que faz um ensemble através de esquemas de blocos heterogêneos. Ao realizar uma votação majoritária sobre caminhos de geração com tamanhos de blocos diversos, o HEX evita robustamente modos de falha associados a qualquer esquema fixo. Em benchmarks de raciocínio como o GSM8K, ele aumenta a precisão em até 3,56X (de 24,72% para 88,10%), superando a inferência de margem top-K e métodos especializados de ajuste fino como o GRPO, sem treinamento adicional. O HEX também proporciona ganhos significativos no benchmark MATH, de 16,40% para 40,00%, no raciocínio científico do ARC-C, de 54,18% para 87,80%, e no TruthfulQA, de 28,36% para 57,46%. Nossos resultados estabelecem um novo paradigma para o escalonamento em tempo de teste em dLLMs baseados em difusão, revelando que a sequência em que o mascaramento é realizado desempenha um papel crítico na determinação do desempenho durante a inferência.
English
Diffusion-based large language models (dLLMs) are trained flexibly to model
extreme dependence in the data distribution; however, how to best utilize this
information at inference time remains an open problem. In this work, we uncover
an interesting property of these models: dLLMs trained on textual data
implicitly learn a mixture of semi-autoregressive experts, where different
generation orders reveal different specialized behaviors. We show that
committing to any single, fixed inference time schedule, a common practice,
collapses performance by failing to leverage this latent ensemble. To address
this, we introduce HEX (Hidden semiautoregressive EXperts for test-time
scaling), a training-free inference method that ensembles across heterogeneous
block schedules. By doing a majority vote over diverse block-sized generation
paths, HEX robustly avoids failure modes associated with any single fixed
schedule. On reasoning benchmarks such as GSM8K, it boosts accuracy by up to
3.56X (from 24.72% to 88.10%), outperforming top-K margin inference and
specialized fine-tuned methods like GRPO, without additional training. HEX even
yields significant gains on MATH benchmark from 16.40% to 40.00%, scientific
reasoning on ARC-C from 54.18% to 87.80%, and TruthfulQA from 28.36% to 57.46%.
Our results establish a new paradigm for test-time scaling in diffusion-based
LLMs (dLLMs), revealing that the sequence in which masking is performed plays a
critical role in determining performance during inference.