ChatPaper.aiChatPaper

Mise à l'échelle au moment du test dans les LLMs à diffusion via des experts semi-autorégressifs cachés

Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts

October 6, 2025
papers.authors: Jihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi
cs.AI

papers.abstract

Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) sont entraînés de manière flexible pour modéliser des dépendances extrêmes dans la distribution des données ; cependant, la meilleure façon d'utiliser cette information au moment de l'inférence reste un problème ouvert. Dans ce travail, nous découvrons une propriété intéressante de ces modèles : les dLLMs entraînés sur des données textuelles apprennent implicitement un mélange d'experts semi-autorégressifs, où différents ordres de génération révèlent des comportements spécialisés distincts. Nous montrons que s'en tenir à un seul et unique ordre d'inférence fixe, une pratique courante, dégrade les performances en ne tirant pas parti de cet ensemble latent. Pour résoudre ce problème, nous introduisons HEX (Hidden semiautoregressive EXperts for test-time scaling), une méthode d'inférence sans entraînement supplémentaire qui combine des ordres de blocs hétérogènes. En effectuant un vote majoritaire sur des chemins de génération de tailles de blocs variées, HEX évite robustement les modes d'échec associés à tout ordre fixe unique. Sur des benchmarks de raisonnement tels que GSM8K, il améliore la précision jusqu'à 3,56 fois (de 24,72 % à 88,10 %), surpassant l'inférence par marge top-K et des méthodes spécialisées comme GRPO, sans entraînement supplémentaire. HEX produit même des gains significatifs sur le benchmark MATH, passant de 16,40 % à 40,00 %, sur le raisonnement scientifique ARC-C de 54,18 % à 87,80 %, et sur TruthfulQA de 28,36 % à 57,46 %. Nos résultats établissent un nouveau paradigme pour la mise à l'échelle au moment de l'inférence dans les dLLMs basés sur la diffusion, révélant que la séquence dans laquelle le masquage est effectué joue un rôle critique dans la détermination des performances lors de l'inférence.
English
Diffusion-based large language models (dLLMs) are trained flexibly to model extreme dependence in the data distribution; however, how to best utilize this information at inference time remains an open problem. In this work, we uncover an interesting property of these models: dLLMs trained on textual data implicitly learn a mixture of semi-autoregressive experts, where different generation orders reveal different specialized behaviors. We show that committing to any single, fixed inference time schedule, a common practice, collapses performance by failing to leverage this latent ensemble. To address this, we introduce HEX (Hidden semiautoregressive EXperts for test-time scaling), a training-free inference method that ensembles across heterogeneous block schedules. By doing a majority vote over diverse block-sized generation paths, HEX robustly avoids failure modes associated with any single fixed schedule. On reasoning benchmarks such as GSM8K, it boosts accuracy by up to 3.56X (from 24.72% to 88.10%), outperforming top-K margin inference and specialized fine-tuned methods like GRPO, without additional training. HEX even yields significant gains on MATH benchmark from 16.40% to 40.00%, scientific reasoning on ARC-C from 54.18% to 87.80%, and TruthfulQA from 28.36% to 57.46%. Our results establish a new paradigm for test-time scaling in diffusion-based LLMs (dLLMs), revealing that the sequence in which masking is performed plays a critical role in determining performance during inference.
PDF22October 7, 2025