Parallele Testzeit-Skalierung für latente Reasoning-Modelle

papers.abstract

Parallelle Testzeit-Skalierung (TTS) ist ein entscheidender Ansatz zur Verbesserung großer Sprachmodelle (LLMs), typischerweise durch das parallele Sampling mehrerer tokenbasierter Gedankenketten (Chain-of-Thought) und die Aggregation der Ergebnisse durch Abstimmung oder Suche. Jüngste Fortschritte im Bereich des latenten Denkens, bei dem Zwischenüberlegungen in kontinuierlichen Vektorräumen ablaufen, bieten eine effizientere Alternative zum expliziten Chain-of-Thought. Ob jedoch solche latenten Modelle ähnlich von paralleler TTS profitieren können, bleibt offen, hauptsächlich aufgrund des Fehlens von Sampling-Mechanismen im kontinuierlichen Raum und des Mangels an probabilistischen Signalen für die fortgeschrittene Aggregation von Trajektorien. \ Diese Arbeit ermöglicht parallele TTS für latente Denkmodelle, indem sie die oben genannten Probleme angeht. Für das Sampling führen wir zwei unsicherheitsinspirierte stochastische Strategien ein: Monte-Carlo-Dropout und additives Gaußsches Rauschen. Für die Aggregation entwerfen wir ein Latent Reward Model (LatentRM), das mit einem schrittweisen kontrastiven Ziel trainiert wird, um latentes Denken zu bewerten und zu steuern. Umfangreiche Experimente und Visualisierungsanalysen zeigen, dass beide Sampling-Strategien effektiv mit der Rechenleistung skalieren und unterschiedliche Explorationsdynamiken aufweisen, während LatentRM eine effektive Trajektorienauswahl ermöglicht. Zusammen eröffnen unsere Untersuchungen eine neue Richtung für skalierbare Inferenz in kontinuierlichen Räumen. Der Code wurde unter https://github.com/YRYangang/LatentTTS veröffentlicht.

English

Parallel test-time scaling (TTS) is a pivotal approach for enhancing large language models (LLMs), typically by sampling multiple token-based chains-of-thought in parallel and aggregating outcomes through voting or search. Recent advances in latent reasoning, where intermediate reasoning unfolds in continuous vector spaces, offer a more efficient alternative to explicit Chain-of-Thought, yet whether such latent models can similarly benefit from parallel TTS remains open, mainly due to the absence of sampling mechanisms in continuous space, and the lack of probabilistic signals for advanced trajectory aggregation. \ This work enables parallel TTS for latent reasoning models by addressing the above issues. For sampling, we introduce two uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM) trained with step-wise contrastive objective to score and guide latent reasoning. Extensive experiments and visualization analyses show that both sampling strategies scale effectively with compute and exhibit distinct exploration dynamics, while LatentRM enables effective trajectory selection. Together, our explorations open a new direction for scalable inference in continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.

Parallele Testzeit-Skalierung für latente Reasoning-Modelle

Parallel Test-Time Scaling for Latent Reasoning Models

papers.abstract

Support