Escalado Paralelo en Tiempo de Prueba para Modelos de Razonamiento Latente

Resumen

El escalado paralelo en tiempo de prueba (TTS, por sus siglas en inglés) es un enfoque fundamental para mejorar los modelos de lenguaje de gran escala (LLMs), típicamente mediante el muestreo de múltiples cadenas de pensamiento basadas en tokens en paralelo y la agregación de resultados a través de votación o búsqueda. Los avances recientes en razonamiento latente, donde el razonamiento intermedio se desarrolla en espacios vectoriales continuos, ofrecen una alternativa más eficiente al Chain-of-Thought explícito. Sin embargo, sigue siendo una incógnita si dichos modelos latentes pueden beneficiarse de manera similar del TTS paralelo, principalmente debido a la ausencia de mecanismos de muestreo en espacios continuos y la falta de señales probabilísticas para la agregación avanzada de trayectorias. Este trabajo habilita el TTS paralelo para modelos de razonamiento latente al abordar los problemas mencionados. Para el muestreo, introducimos dos estrategias estocásticas inspiradas en la incertidumbre: Monte Carlo Dropout y Ruido Gaussiano Aditivo. Para la agregación, diseñamos un Modelo de Recompensa Latente (LatentRM) entrenado con un objetivo contrastivo paso a paso para puntuar y guiar el razonamiento latente. Experimentos extensos y análisis de visualización muestran que ambas estrategias de muestreo escalan efectivamente con el cómputo y exhiben dinámicas de exploración distintas, mientras que LatentRM permite una selección efectiva de trayectorias. En conjunto, nuestras exploraciones abren una nueva dirección para la inferencia escalable en espacios continuos. El código está disponible en https://github.com/YRYangang/LatentTTS.

English

Parallel test-time scaling (TTS) is a pivotal approach for enhancing large language models (LLMs), typically by sampling multiple token-based chains-of-thought in parallel and aggregating outcomes through voting or search. Recent advances in latent reasoning, where intermediate reasoning unfolds in continuous vector spaces, offer a more efficient alternative to explicit Chain-of-Thought, yet whether such latent models can similarly benefit from parallel TTS remains open, mainly due to the absence of sampling mechanisms in continuous space, and the lack of probabilistic signals for advanced trajectory aggregation. \ This work enables parallel TTS for latent reasoning models by addressing the above issues. For sampling, we introduce two uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM) trained with step-wise contrastive objective to score and guide latent reasoning. Extensive experiments and visualization analyses show that both sampling strategies scale effectively with compute and exhibit distinct exploration dynamics, while LatentRM enables effective trajectory selection. Together, our explorations open a new direction for scalable inference in continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.

Escalado Paralelo en Tiempo de Prueba para Modelos de Razonamiento Latente

Parallel Test-Time Scaling for Latent Reasoning Models

Resumen

Support