Параллельное масштабирование во время тестирования для моделей латентного рассуждения

Аннотация

Параллельное масштабирование на этапе тестирования (TTS) является ключевым подходом для улучшения больших языковых моделей (LLM), обычно за счет параллельного сэмплирования нескольких цепочек рассуждений на основе токенов и агрегирования результатов через голосование или поиск. Недавние достижения в области латентного рассуждения, где промежуточные рассуждения разворачиваются в непрерывных векторных пространствах, предлагают более эффективную альтернативу явной цепочке рассуждений (Chain-of-Thought). Однако остается открытым вопрос, могут ли такие латентные модели аналогично выиграть от параллельного TTS, главным образом из-за отсутствия механизмов сэмплирования в непрерывном пространстве и недостатка вероятностных сигналов для продвинутой агрегации траекторий. \ В данной работе мы реализуем параллельное TTS для моделей латентного рассуждения, решая указанные проблемы. Для сэмплирования мы предлагаем две стохастические стратегии, вдохновленные неопределенностью: метод Монте-Карло с отключением (Monte Carlo Dropout) и добавление гауссовского шума. Для агрегации мы разрабатываем латентную модель вознаграждения (LatentRM), обученную с пошаговым контрастным целевым функционалом для оценки и направления латентного рассуждения. Многочисленные эксперименты и визуализационные анализы показывают, что обе стратегии сэмплирования эффективно масштабируются с увеличением вычислительных ресурсов и демонстрируют различные динамики исследования, в то время как LatentRM позволяет эффективно выбирать траектории. Вместе наши исследования открывают новое направление для масштабируемого вывода в непрерывных пространствах. Код доступен по адресу https://github.com/YRYangang/LatentTTS.

English

Parallel test-time scaling (TTS) is a pivotal approach for enhancing large language models (LLMs), typically by sampling multiple token-based chains-of-thought in parallel and aggregating outcomes through voting or search. Recent advances in latent reasoning, where intermediate reasoning unfolds in continuous vector spaces, offer a more efficient alternative to explicit Chain-of-Thought, yet whether such latent models can similarly benefit from parallel TTS remains open, mainly due to the absence of sampling mechanisms in continuous space, and the lack of probabilistic signals for advanced trajectory aggregation. \ This work enables parallel TTS for latent reasoning models by addressing the above issues. For sampling, we introduce two uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM) trained with step-wise contrastive objective to score and guide latent reasoning. Extensive experiments and visualization analyses show that both sampling strategies scale effectively with compute and exhibit distinct exploration dynamics, while LatentRM enables effective trajectory selection. Together, our explorations open a new direction for scalable inference in continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.

Параллельное масштабирование во время тестирования для моделей латентного рассуждения

Parallel Test-Time Scaling for Latent Reasoning Models

Аннотация

Support