ChatPaper.aiChatPaper

Escalado en Tiempo de Prueba en Modelos de Difusión LLM mediante Expertos Semi-Autorregresivos Ocultos

Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts

October 6, 2025
Autores: Jihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi
cs.AI

Resumen

Los modelos de lenguaje basados en difusión (dLLMs, por sus siglas en inglés) se entrenan de manera flexible para modelar dependencias extremas en la distribución de datos; sin embargo, cómo utilizar mejor esta información durante la inferencia sigue siendo un problema abierto. En este trabajo, descubrimos una propiedad interesante de estos modelos: los dLLMs entrenados con datos textuales aprenden implícitamente una mezcla de expertos semiautoregresivos, donde diferentes órdenes de generación revelan comportamientos especializados distintos. Demostramos que comprometerse con un único esquema fijo en el momento de la inferencia, una práctica común, colapsa el rendimiento al no aprovechar este conjunto latente. Para abordar esto, presentamos HEX (Expertos semiautoregresivos ocultos para escalado en tiempo de prueba), un método de inferencia sin entrenamiento que combina múltiples esquemas de bloques heterogéneos. Al realizar una votación mayoritaria sobre trayectorias de generación con tamaños de bloque diversos, HEX evita de manera robusta los modos de fallo asociados con cualquier esquema fijo único. En pruebas de razonamiento como GSM8K, aumenta la precisión hasta 3.56 veces (de 24.72% a 88.10%), superando la inferencia de margen top-K y métodos especializados ajustados como GRPO, sin necesidad de entrenamiento adicional. HEX incluso produce mejoras significativas en el benchmark MATH, de 16.40% a 40.00%, en razonamiento científico en ARC-C, de 54.18% a 87.80%, y en TruthfulQA, de 28.36% a 57.46%. Nuestros resultados establecen un nuevo paradigma para el escalado en tiempo de prueba en dLLMs basados en difusión, revelando que la secuencia en la que se realiza el enmascaramiento juega un papel crítico en la determinación del rendimiento durante la inferencia.
English
Diffusion-based large language models (dLLMs) are trained flexibly to model extreme dependence in the data distribution; however, how to best utilize this information at inference time remains an open problem. In this work, we uncover an interesting property of these models: dLLMs trained on textual data implicitly learn a mixture of semi-autoregressive experts, where different generation orders reveal different specialized behaviors. We show that committing to any single, fixed inference time schedule, a common practice, collapses performance by failing to leverage this latent ensemble. To address this, we introduce HEX (Hidden semiautoregressive EXperts for test-time scaling), a training-free inference method that ensembles across heterogeneous block schedules. By doing a majority vote over diverse block-sized generation paths, HEX robustly avoids failure modes associated with any single fixed schedule. On reasoning benchmarks such as GSM8K, it boosts accuracy by up to 3.56X (from 24.72% to 88.10%), outperforming top-K margin inference and specialized fine-tuned methods like GRPO, without additional training. HEX even yields significant gains on MATH benchmark from 16.40% to 40.00%, scientific reasoning on ARC-C from 54.18% to 87.80%, and TruthfulQA from 28.36% to 57.46%. Our results establish a new paradigm for test-time scaling in diffusion-based LLMs (dLLMs), revealing that the sequence in which masking is performed plays a critical role in determining performance during inference.
PDF22October 7, 2025