Escalonamento Paralelo em Tempo de Teste para Modelos de Raciocínio Latente
Parallel Test-Time Scaling for Latent Reasoning Models
October 9, 2025
Autores: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
Resumo
O escalonamento paralelo em tempo de teste (TTS) é uma abordagem fundamental para aprimorar modelos de linguagem de grande escala (LLMs), geralmente por meio da amostragem de múltiplas cadeias de pensamento baseadas em tokens em paralelo e da agregação dos resultados por votação ou busca. Avanços recentes em raciocínio latente, onde o raciocínio intermediário se desdobra em espaços vetoriais contínuos, oferecem uma alternativa mais eficiente ao Chain-of-Thought explícito, mas ainda é incerto se tais modelos latentes podem se beneficiar de forma semelhante do TTS paralelo, principalmente devido à ausência de mecanismos de amostragem em espaços contínuos e à falta de sinais probabilísticos para agregação avançada de trajetórias. \ Este trabalho possibilita o TTS paralelo para modelos de raciocínio latente ao abordar as questões mencionadas. Para amostragem, introduzimos duas estratégias estocásticas inspiradas em incerteza: Monte Carlo Dropout e Ruído Gaussiano Aditivo. Para agregação, projetamos um Modelo de Recompensa Latente (LatentRM) treinado com um objetivo contrastivo passo a passo para pontuar e guiar o raciocínio latente. Experimentos extensivos e análises de visualização mostram que ambas as estratégias de amostragem escalam efetivamente com o poder de computação e exibem dinâmicas de exploração distintas, enquanto o LatentRM permite uma seleção eficaz de trajetórias. Juntas, nossas explorações abrem uma nova direção para inferência escalável em espaços contínuos. O código foi disponibilizado em https://github.com/YRYangang/LatentTTS.
English
Parallel test-time scaling (TTS) is a pivotal approach for enhancing large
language models (LLMs), typically by sampling multiple token-based
chains-of-thought in parallel and aggregating outcomes through voting or
search. Recent advances in latent reasoning, where intermediate reasoning
unfolds in continuous vector spaces, offer a more efficient alternative to
explicit Chain-of-Thought, yet whether such latent models can similarly benefit
from parallel TTS remains open, mainly due to the absence of sampling
mechanisms in continuous space, and the lack of probabilistic signals for
advanced trajectory aggregation. \ This work enables parallel TTS for latent
reasoning models by addressing the above issues. For sampling, we introduce two
uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive
Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM)
trained with step-wise contrastive objective to score and guide latent
reasoning. Extensive experiments and visualization analyses show that both
sampling strategies scale effectively with compute and exhibit distinct
exploration dynamics, while LatentRM enables effective trajectory selection.
Together, our explorations open a new direction for scalable inference in
continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.