Parallele Testzeit-Skalierung für latente Reasoning-Modelle
Parallel Test-Time Scaling for Latent Reasoning Models
October 9, 2025
papers.authors: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
papers.abstract
Parallelle Testzeit-Skalierung (TTS) ist ein entscheidender Ansatz zur Verbesserung großer Sprachmodelle (LLMs), typischerweise durch das parallele Sampling mehrerer tokenbasierter Gedankenketten (Chain-of-Thought) und die Aggregation der Ergebnisse durch Abstimmung oder Suche. Jüngste Fortschritte im Bereich des latenten Denkens, bei dem Zwischenüberlegungen in kontinuierlichen Vektorräumen ablaufen, bieten eine effizientere Alternative zum expliziten Chain-of-Thought. Ob jedoch solche latenten Modelle ähnlich von paralleler TTS profitieren können, bleibt offen, hauptsächlich aufgrund des Fehlens von Sampling-Mechanismen im kontinuierlichen Raum und des Mangels an probabilistischen Signalen für die fortgeschrittene Aggregation von Trajektorien. \ Diese Arbeit ermöglicht parallele TTS für latente Denkmodelle, indem sie die oben genannten Probleme angeht. Für das Sampling führen wir zwei unsicherheitsinspirierte stochastische Strategien ein: Monte-Carlo-Dropout und additives Gaußsches Rauschen. Für die Aggregation entwerfen wir ein Latent Reward Model (LatentRM), das mit einem schrittweisen kontrastiven Ziel trainiert wird, um latentes Denken zu bewerten und zu steuern. Umfangreiche Experimente und Visualisierungsanalysen zeigen, dass beide Sampling-Strategien effektiv mit der Rechenleistung skalieren und unterschiedliche Explorationsdynamiken aufweisen, während LatentRM eine effektive Trajektorienauswahl ermöglicht. Zusammen eröffnen unsere Untersuchungen eine neue Richtung für skalierbare Inferenz in kontinuierlichen Räumen. Der Code wurde unter https://github.com/YRYangang/LatentTTS veröffentlicht.
English
Parallel test-time scaling (TTS) is a pivotal approach for enhancing large
language models (LLMs), typically by sampling multiple token-based
chains-of-thought in parallel and aggregating outcomes through voting or
search. Recent advances in latent reasoning, where intermediate reasoning
unfolds in continuous vector spaces, offer a more efficient alternative to
explicit Chain-of-Thought, yet whether such latent models can similarly benefit
from parallel TTS remains open, mainly due to the absence of sampling
mechanisms in continuous space, and the lack of probabilistic signals for
advanced trajectory aggregation. \ This work enables parallel TTS for latent
reasoning models by addressing the above issues. For sampling, we introduce two
uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive
Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM)
trained with step-wise contrastive objective to score and guide latent
reasoning. Extensive experiments and visualization analyses show that both
sampling strategies scale effectively with compute and exhibit distinct
exploration dynamics, while LatentRM enables effective trajectory selection.
Together, our explorations open a new direction for scalable inference in
continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.