Scalatura Parallela al Tempo di Test per Modelli di Ragionamento Latente
Parallel Test-Time Scaling for Latent Reasoning Models
October 9, 2025
Autori: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
Abstract
Il parallel test-time scaling (TTS) è un approccio fondamentale per migliorare i grandi modelli linguistici (LLMs), tipicamente campionando in parallelo più catene di pensiero basate su token e aggregando i risultati attraverso votazione o ricerca. I recenti progressi nel ragionamento latente, dove il ragionamento intermedio si svolge in spazi vettoriali continui, offrono un'alternativa più efficiente rispetto alla Chain-of-Thought esplicita, ma rimane aperta la questione se tali modelli latenti possano trarre vantaggio in modo simile dal parallel TTS, principalmente a causa dell'assenza di meccanismi di campionamento nello spazio continuo e della mancanza di segnali probabilistici per l'aggregazione avanzata delle traiettorie. \ Questo lavoro abilita il parallel TTS per i modelli di ragionamento latente affrontando le problematiche sopra citate. Per il campionamento, introduciamo due strategie stocastiche ispirate all'incertezza: Monte Carlo Dropout e Additive Gaussian Noise. Per l'aggregazione, progettiamo un Latent Reward Model (LatentRM) addestrato con un obiettivo contrastivo step-wise per valutare e guidare il ragionamento latente. Esperimenti estesi e analisi di visualizzazione dimostrano che entrambe le strategie di campionamento scalano efficacemente con il calcolo e mostrano dinamiche di esplorazione distinte, mentre LatentRM consente una selezione efficace delle traiettorie. Insieme, le nostre esplorazioni aprono una nuova direzione per l'inferenza scalabile in spazi continui. Il codice è disponibile all'indirizzo https://github.com/YRYangang/LatentTTS.
English
Parallel test-time scaling (TTS) is a pivotal approach for enhancing large
language models (LLMs), typically by sampling multiple token-based
chains-of-thought in parallel and aggregating outcomes through voting or
search. Recent advances in latent reasoning, where intermediate reasoning
unfolds in continuous vector spaces, offer a more efficient alternative to
explicit Chain-of-Thought, yet whether such latent models can similarly benefit
from parallel TTS remains open, mainly due to the absence of sampling
mechanisms in continuous space, and the lack of probabilistic signals for
advanced trajectory aggregation. \ This work enables parallel TTS for latent
reasoning models by addressing the above issues. For sampling, we introduce two
uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive
Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM)
trained with step-wise contrastive objective to score and guide latent
reasoning. Extensive experiments and visualization analyses show that both
sampling strategies scale effectively with compute and exhibit distinct
exploration dynamics, while LatentRM enables effective trajectory selection.
Together, our explorations open a new direction for scalable inference in
continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.