Mise à l'échelle parallèle en temps de test pour les modèles de raisonnement latent
Parallel Test-Time Scaling for Latent Reasoning Models
October 9, 2025
papers.authors: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
papers.abstract
Le scaling parallèle au moment du test (TTS) est une approche essentielle pour améliorer les grands modèles de langage (LLMs), généralement en échantillonnant plusieurs chaînes de pensée basées sur des tokens en parallèle et en agrégeant les résultats par vote ou recherche. Les avancées récentes dans le raisonnement latent, où le raisonnement intermédiaire se déroule dans des espaces vectoriels continus, offrent une alternative plus efficace au Chain-of-Thought explicite. Cependant, la question de savoir si ces modèles latents peuvent bénéficier de manière similaire du TTS parallèle reste ouverte, principalement en raison de l'absence de mécanismes d'échantillonnage dans l'espace continu et du manque de signaux probabilistes pour l'agrégation avancée des trajectoires. \ Ce travail permet le TTS parallèle pour les modèles de raisonnement latent en abordant ces problèmes. Pour l'échantillonnage, nous introduisons deux stratégies stochastiques inspirées par l'incertitude : le Monte Carlo Dropout et le bruit gaussien additif. Pour l'agrégation, nous concevons un modèle de récompense latent (LatentRM) entraîné avec un objectif contrastif étape par étape pour évaluer et guider le raisonnement latent. Des expériences approfondies et des analyses de visualisation montrent que les deux stratégies d'échantillonnage s'adaptent efficacement à la puissance de calcul et présentent des dynamiques d'exploration distinctes, tandis que le LatentRM permet une sélection efficace des trajectoires. Ensemble, nos explorations ouvrent une nouvelle direction pour l'inférence scalable dans les espaces continus. Le code est disponible à l'adresse suivante : https://github.com/YRYangang/LatentTTS.
English
Parallel test-time scaling (TTS) is a pivotal approach for enhancing large
language models (LLMs), typically by sampling multiple token-based
chains-of-thought in parallel and aggregating outcomes through voting or
search. Recent advances in latent reasoning, where intermediate reasoning
unfolds in continuous vector spaces, offer a more efficient alternative to
explicit Chain-of-Thought, yet whether such latent models can similarly benefit
from parallel TTS remains open, mainly due to the absence of sampling
mechanisms in continuous space, and the lack of probabilistic signals for
advanced trajectory aggregation. \ This work enables parallel TTS for latent
reasoning models by addressing the above issues. For sampling, we introduce two
uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive
Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM)
trained with step-wise contrastive objective to score and guide latent
reasoning. Extensive experiments and visualization analyses show that both
sampling strategies scale effectively with compute and exhibit distinct
exploration dynamics, while LatentRM enables effective trajectory selection.
Together, our explorations open a new direction for scalable inference in
continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.