Параллельное масштабирование во время тестирования для моделей латентного рассуждения
Parallel Test-Time Scaling for Latent Reasoning Models
October 9, 2025
Авторы: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
Аннотация
Параллельное масштабирование на этапе тестирования (TTS) является ключевым подходом для улучшения больших языковых моделей (LLM), обычно за счет параллельного сэмплирования нескольких цепочек рассуждений на основе токенов и агрегирования результатов через голосование или поиск. Недавние достижения в области латентного рассуждения, где промежуточные рассуждения разворачиваются в непрерывных векторных пространствах, предлагают более эффективную альтернативу явной цепочке рассуждений (Chain-of-Thought). Однако остается открытым вопрос, могут ли такие латентные модели аналогично выиграть от параллельного TTS, главным образом из-за отсутствия механизмов сэмплирования в непрерывном пространстве и недостатка вероятностных сигналов для продвинутой агрегации траекторий. \ В данной работе мы реализуем параллельное TTS для моделей латентного рассуждения, решая указанные проблемы. Для сэмплирования мы предлагаем две стохастические стратегии, вдохновленные неопределенностью: метод Монте-Карло с отключением (Monte Carlo Dropout) и добавление гауссовского шума. Для агрегации мы разрабатываем латентную модель вознаграждения (LatentRM), обученную с пошаговым контрастным целевым функционалом для оценки и направления латентного рассуждения. Многочисленные эксперименты и визуализационные анализы показывают, что обе стратегии сэмплирования эффективно масштабируются с увеличением вычислительных ресурсов и демонстрируют различные динамики исследования, в то время как LatentRM позволяет эффективно выбирать траектории. Вместе наши исследования открывают новое направление для масштабируемого вывода в непрерывных пространствах. Код доступен по адресу https://github.com/YRYangang/LatentTTS.
English
Parallel test-time scaling (TTS) is a pivotal approach for enhancing large
language models (LLMs), typically by sampling multiple token-based
chains-of-thought in parallel and aggregating outcomes through voting or
search. Recent advances in latent reasoning, where intermediate reasoning
unfolds in continuous vector spaces, offer a more efficient alternative to
explicit Chain-of-Thought, yet whether such latent models can similarly benefit
from parallel TTS remains open, mainly due to the absence of sampling
mechanisms in continuous space, and the lack of probabilistic signals for
advanced trajectory aggregation. \ This work enables parallel TTS for latent
reasoning models by addressing the above issues. For sampling, we introduce two
uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive
Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM)
trained with step-wise contrastive objective to score and guide latent
reasoning. Extensive experiments and visualization analyses show that both
sampling strategies scale effectively with compute and exhibit distinct
exploration dynamics, while LatentRM enables effective trajectory selection.
Together, our explorations open a new direction for scalable inference in
continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.