Scalatura Parallela al Tempo di Test per Modelli di Ragionamento Latente

Abstract

Il parallel test-time scaling (TTS) è un approccio fondamentale per migliorare i grandi modelli linguistici (LLMs), tipicamente campionando in parallelo più catene di pensiero basate su token e aggregando i risultati attraverso votazione o ricerca. I recenti progressi nel ragionamento latente, dove il ragionamento intermedio si svolge in spazi vettoriali continui, offrono un'alternativa più efficiente rispetto alla Chain-of-Thought esplicita, ma rimane aperta la questione se tali modelli latenti possano trarre vantaggio in modo simile dal parallel TTS, principalmente a causa dell'assenza di meccanismi di campionamento nello spazio continuo e della mancanza di segnali probabilistici per l'aggregazione avanzata delle traiettorie. \ Questo lavoro abilita il parallel TTS per i modelli di ragionamento latente affrontando le problematiche sopra citate. Per il campionamento, introduciamo due strategie stocastiche ispirate all'incertezza: Monte Carlo Dropout e Additive Gaussian Noise. Per l'aggregazione, progettiamo un Latent Reward Model (LatentRM) addestrato con un obiettivo contrastivo step-wise per valutare e guidare il ragionamento latente. Esperimenti estesi e analisi di visualizzazione dimostrano che entrambe le strategie di campionamento scalano efficacemente con il calcolo e mostrano dinamiche di esplorazione distinte, mentre LatentRM consente una selezione efficace delle traiettorie. Insieme, le nostre esplorazioni aprono una nuova direzione per l'inferenza scalabile in spazi continui. Il codice è disponibile all'indirizzo https://github.com/YRYangang/LatentTTS.

English

Parallel test-time scaling (TTS) is a pivotal approach for enhancing large language models (LLMs), typically by sampling multiple token-based chains-of-thought in parallel and aggregating outcomes through voting or search. Recent advances in latent reasoning, where intermediate reasoning unfolds in continuous vector spaces, offer a more efficient alternative to explicit Chain-of-Thought, yet whether such latent models can similarly benefit from parallel TTS remains open, mainly due to the absence of sampling mechanisms in continuous space, and the lack of probabilistic signals for advanced trajectory aggregation. \ This work enables parallel TTS for latent reasoning models by addressing the above issues. For sampling, we introduce two uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM) trained with step-wise contrastive objective to score and guide latent reasoning. Extensive experiments and visualization analyses show that both sampling strategies scale effectively with compute and exhibit distinct exploration dynamics, while LatentRM enables effective trajectory selection. Together, our explorations open a new direction for scalable inference in continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.

Scalatura Parallela al Tempo di Test per Modelli di Ragionamento Latente

Parallel Test-Time Scaling for Latent Reasoning Models

Abstract

Support