Parallelle Testtijd-schaalbaarheid voor Latente Redeneermodellen

Samenvatting

Parallelle testtijd-schaalbaarheid (TTS) is een cruciale aanpak voor het verbeteren van grote taalmmodellen (LLMs), meestal door het parallel bemonsteren van meerdere token-gebaseerde ketens van gedachten en het samenvoegen van resultaten via stemmen of zoeken. Recente vooruitgang in latent redeneren, waarbij tussenliggend redeneren plaatsvindt in continue vectorruimtes, biedt een efficiënter alternatief voor expliciete Chain-of-Thought. Echter, of dergelijke latente modellen op dezelfde manier kunnen profiteren van parallelle TTS, blijft een open vraag, voornamelijk door het ontbreken van bemonsteringsmechanismen in continue ruimte en het gebrek aan probabilistische signalen voor geavanceerde trajectaggregatie. \ Dit werk maakt parallelle TTS mogelijk voor latente redeneermodellen door de bovengenoemde problemen aan te pakken. Voor bemonstering introduceren we twee op onzekerheid geïnspireerde stochastische strategieën: Monte Carlo Dropout en Additief Gaussiaans Ruis. Voor aggregatie ontwerpen we een Latent Beloningsmodel (LatentRM) dat is getraind met een stapsgewijs contrastief doel om latent redeneren te scoren en te begeleiden. Uitgebreide experimenten en visualisatieanalyses tonen aan dat beide bemonsteringsstrategieën effectief schalen met rekenkracht en verschillende verkenningseigenschappen vertonen, terwijl LatentRM effectieve trajectselectie mogelijk maakt. Samen openen onze verkenningen een nieuwe richting voor schaalbare inferentie in continue ruimtes. Code is vrijgegeven op https://github.com/YRYangang/LatentTTS.

English

Parallel test-time scaling (TTS) is a pivotal approach for enhancing large language models (LLMs), typically by sampling multiple token-based chains-of-thought in parallel and aggregating outcomes through voting or search. Recent advances in latent reasoning, where intermediate reasoning unfolds in continuous vector spaces, offer a more efficient alternative to explicit Chain-of-Thought, yet whether such latent models can similarly benefit from parallel TTS remains open, mainly due to the absence of sampling mechanisms in continuous space, and the lack of probabilistic signals for advanced trajectory aggregation. \ This work enables parallel TTS for latent reasoning models by addressing the above issues. For sampling, we introduce two uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM) trained with step-wise contrastive objective to score and guide latent reasoning. Extensive experiments and visualization analyses show that both sampling strategies scale effectively with compute and exhibit distinct exploration dynamics, while LatentRM enables effective trajectory selection. Together, our explorations open a new direction for scalable inference in continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.

Parallelle Testtijd-schaalbaarheid voor Latente Redeneermodellen

Parallel Test-Time Scaling for Latent Reasoning Models

Samenvatting

Support