Mise à l'échelle parallèle en temps de test pour les modèles de raisonnement latent

papers.abstract

Le scaling parallèle au moment du test (TTS) est une approche essentielle pour améliorer les grands modèles de langage (LLMs), généralement en échantillonnant plusieurs chaînes de pensée basées sur des tokens en parallèle et en agrégeant les résultats par vote ou recherche. Les avancées récentes dans le raisonnement latent, où le raisonnement intermédiaire se déroule dans des espaces vectoriels continus, offrent une alternative plus efficace au Chain-of-Thought explicite. Cependant, la question de savoir si ces modèles latents peuvent bénéficier de manière similaire du TTS parallèle reste ouverte, principalement en raison de l'absence de mécanismes d'échantillonnage dans l'espace continu et du manque de signaux probabilistes pour l'agrégation avancée des trajectoires. \ Ce travail permet le TTS parallèle pour les modèles de raisonnement latent en abordant ces problèmes. Pour l'échantillonnage, nous introduisons deux stratégies stochastiques inspirées par l'incertitude : le Monte Carlo Dropout et le bruit gaussien additif. Pour l'agrégation, nous concevons un modèle de récompense latent (LatentRM) entraîné avec un objectif contrastif étape par étape pour évaluer et guider le raisonnement latent. Des expériences approfondies et des analyses de visualisation montrent que les deux stratégies d'échantillonnage s'adaptent efficacement à la puissance de calcul et présentent des dynamiques d'exploration distinctes, tandis que le LatentRM permet une sélection efficace des trajectoires. Ensemble, nos explorations ouvrent une nouvelle direction pour l'inférence scalable dans les espaces continus. Le code est disponible à l'adresse suivante : https://github.com/YRYangang/LatentTTS.

English

Parallel test-time scaling (TTS) is a pivotal approach for enhancing large language models (LLMs), typically by sampling multiple token-based chains-of-thought in parallel and aggregating outcomes through voting or search. Recent advances in latent reasoning, where intermediate reasoning unfolds in continuous vector spaces, offer a more efficient alternative to explicit Chain-of-Thought, yet whether such latent models can similarly benefit from parallel TTS remains open, mainly due to the absence of sampling mechanisms in continuous space, and the lack of probabilistic signals for advanced trajectory aggregation. \ This work enables parallel TTS for latent reasoning models by addressing the above issues. For sampling, we introduce two uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM) trained with step-wise contrastive objective to score and guide latent reasoning. Extensive experiments and visualization analyses show that both sampling strategies scale effectively with compute and exhibit distinct exploration dynamics, while LatentRM enables effective trajectory selection. Together, our explorations open a new direction for scalable inference in continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.

Mise à l'échelle parallèle en temps de test pour les modèles de raisonnement latent

Parallel Test-Time Scaling for Latent Reasoning Models

papers.abstract

Support