Parallelle Testtijd-schaalbaarheid voor Latente Redeneermodellen
Parallel Test-Time Scaling for Latent Reasoning Models
October 9, 2025
Auteurs: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
Samenvatting
Parallelle testtijd-schaalbaarheid (TTS) is een cruciale aanpak voor het verbeteren van grote taalmmodellen (LLMs), meestal door het parallel bemonsteren van meerdere token-gebaseerde ketens van gedachten en het samenvoegen van resultaten via stemmen of zoeken. Recente vooruitgang in latent redeneren, waarbij tussenliggend redeneren plaatsvindt in continue vectorruimtes, biedt een efficiënter alternatief voor expliciete Chain-of-Thought. Echter, of dergelijke latente modellen op dezelfde manier kunnen profiteren van parallelle TTS, blijft een open vraag, voornamelijk door het ontbreken van bemonsteringsmechanismen in continue ruimte en het gebrek aan probabilistische signalen voor geavanceerde trajectaggregatie. \ Dit werk maakt parallelle TTS mogelijk voor latente redeneermodellen door de bovengenoemde problemen aan te pakken. Voor bemonstering introduceren we twee op onzekerheid geïnspireerde stochastische strategieën: Monte Carlo Dropout en Additief Gaussiaans Ruis. Voor aggregatie ontwerpen we een Latent Beloningsmodel (LatentRM) dat is getraind met een stapsgewijs contrastief doel om latent redeneren te scoren en te begeleiden. Uitgebreide experimenten en visualisatieanalyses tonen aan dat beide bemonsteringsstrategieën effectief schalen met rekenkracht en verschillende verkenningseigenschappen vertonen, terwijl LatentRM effectieve trajectselectie mogelijk maakt. Samen openen onze verkenningen een nieuwe richting voor schaalbare inferentie in continue ruimtes. Code is vrijgegeven op https://github.com/YRYangang/LatentTTS.
English
Parallel test-time scaling (TTS) is a pivotal approach for enhancing large
language models (LLMs), typically by sampling multiple token-based
chains-of-thought in parallel and aggregating outcomes through voting or
search. Recent advances in latent reasoning, where intermediate reasoning
unfolds in continuous vector spaces, offer a more efficient alternative to
explicit Chain-of-Thought, yet whether such latent models can similarly benefit
from parallel TTS remains open, mainly due to the absence of sampling
mechanisms in continuous space, and the lack of probabilistic signals for
advanced trajectory aggregation. \ This work enables parallel TTS for latent
reasoning models by addressing the above issues. For sampling, we introduce two
uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive
Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM)
trained with step-wise contrastive objective to score and guide latent
reasoning. Extensive experiments and visualization analyses show that both
sampling strategies scale effectively with compute and exhibit distinct
exploration dynamics, while LatentRM enables effective trajectory selection.
Together, our explorations open a new direction for scalable inference in
continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.