Escalado Paralelo en Tiempo de Prueba para Modelos de Razonamiento Latente
Parallel Test-Time Scaling for Latent Reasoning Models
October 9, 2025
Autores: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
Resumen
El escalado paralelo en tiempo de prueba (TTS, por sus siglas en inglés) es un enfoque fundamental para mejorar los modelos de lenguaje de gran escala (LLMs), típicamente mediante el muestreo de múltiples cadenas de pensamiento basadas en tokens en paralelo y la agregación de resultados a través de votación o búsqueda. Los avances recientes en razonamiento latente, donde el razonamiento intermedio se desarrolla en espacios vectoriales continuos, ofrecen una alternativa más eficiente al Chain-of-Thought explícito. Sin embargo, sigue siendo una incógnita si dichos modelos latentes pueden beneficiarse de manera similar del TTS paralelo, principalmente debido a la ausencia de mecanismos de muestreo en espacios continuos y la falta de señales probabilísticas para la agregación avanzada de trayectorias. Este trabajo habilita el TTS paralelo para modelos de razonamiento latente al abordar los problemas mencionados. Para el muestreo, introducimos dos estrategias estocásticas inspiradas en la incertidumbre: Monte Carlo Dropout y Ruido Gaussiano Aditivo. Para la agregación, diseñamos un Modelo de Recompensa Latente (LatentRM) entrenado con un objetivo contrastivo paso a paso para puntuar y guiar el razonamiento latente. Experimentos extensos y análisis de visualización muestran que ambas estrategias de muestreo escalan efectivamente con el cómputo y exhiben dinámicas de exploración distintas, mientras que LatentRM permite una selección efectiva de trayectorias. En conjunto, nuestras exploraciones abren una nueva dirección para la inferencia escalable en espacios continuos. El código está disponible en https://github.com/YRYangang/LatentTTS.
English
Parallel test-time scaling (TTS) is a pivotal approach for enhancing large
language models (LLMs), typically by sampling multiple token-based
chains-of-thought in parallel and aggregating outcomes through voting or
search. Recent advances in latent reasoning, where intermediate reasoning
unfolds in continuous vector spaces, offer a more efficient alternative to
explicit Chain-of-Thought, yet whether such latent models can similarly benefit
from parallel TTS remains open, mainly due to the absence of sampling
mechanisms in continuous space, and the lack of probabilistic signals for
advanced trajectory aggregation. \ This work enables parallel TTS for latent
reasoning models by addressing the above issues. For sampling, we introduce two
uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive
Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM)
trained with step-wise contrastive objective to score and guide latent
reasoning. Extensive experiments and visualization analyses show that both
sampling strategies scale effectively with compute and exhibit distinct
exploration dynamics, while LatentRM enables effective trajectory selection.
Together, our explorations open a new direction for scalable inference in
continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.