ChatPaper.aiChatPaper

Масштабирование во время тестирования в диффузионных языковых моделях с использованием скрытых полуавторегрессивных экспертов

Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts

October 6, 2025
Авторы: Jihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi
cs.AI

Аннотация

Диффузионные модели больших языковых моделей (dLLMs) обучаются гибко для моделирования экстремальных зависимостей в распределении данных; однако вопрос о том, как наилучшим образом использовать эту информацию на этапе вывода, остается открытым. В данной работе мы обнаруживаем интересное свойство этих моделей: dLLMs, обученные на текстовых данных, неявно изучают смесь полуавторегрессивных экспертов, где различные порядки генерации раскрывают различные специализированные поведения. Мы показываем, что использование любого фиксированного расписания на этапе вывода, что является распространенной практикой, снижает производительность, так как не позволяет использовать этот скрытый ансамбль. Для решения этой проблемы мы представляем HEX (Hidden semiautoregressive EXperts for test-time scaling), метод вывода без дополнительного обучения, который ансамблирует разнородные расписания блоков. Путем голосования большинства по различным путям генерации с разными размерами блоков, HEX надежно избегает проблем, связанных с любым фиксированным расписанием. На тестах на логическое мышление, таких как GSM8K, он повышает точность до 3.56 раз (с 24.72% до 88.10%), превосходя методы вывода с использованием top-K margin и специализированные методы тонкой настройки, такие как GRPO, без дополнительного обучения. HEX также демонстрирует значительные улучшения на тесте MATH с 16.40% до 40.00%, на научном тесте ARC-C с 54.18% до 87.80% и на TruthfulQA с 28.36% до 57.46%. Наши результаты устанавливают новую парадигму для масштабирования на этапе вывода в диффузионных LLM (dLLMs), показывая, что последовательность, в которой выполняется маскирование, играет критическую роль в определении производительности во время вывода.
English
Diffusion-based large language models (dLLMs) are trained flexibly to model extreme dependence in the data distribution; however, how to best utilize this information at inference time remains an open problem. In this work, we uncover an interesting property of these models: dLLMs trained on textual data implicitly learn a mixture of semi-autoregressive experts, where different generation orders reveal different specialized behaviors. We show that committing to any single, fixed inference time schedule, a common practice, collapses performance by failing to leverage this latent ensemble. To address this, we introduce HEX (Hidden semiautoregressive EXperts for test-time scaling), a training-free inference method that ensembles across heterogeneous block schedules. By doing a majority vote over diverse block-sized generation paths, HEX robustly avoids failure modes associated with any single fixed schedule. On reasoning benchmarks such as GSM8K, it boosts accuracy by up to 3.56X (from 24.72% to 88.10%), outperforming top-K margin inference and specialized fine-tuned methods like GRPO, without additional training. HEX even yields significant gains on MATH benchmark from 16.40% to 40.00%, scientific reasoning on ARC-C from 54.18% to 87.80%, and TruthfulQA from 28.36% to 57.46%. Our results establish a new paradigm for test-time scaling in diffusion-based LLMs (dLLMs), revealing that the sequence in which masking is performed plays a critical role in determining performance during inference.
PDF22October 7, 2025