ChatPaper.aiChatPaper

잠재 추론 모델을 위한 병렬 테스트 시간 스케일링

Parallel Test-Time Scaling for Latent Reasoning Models

October 9, 2025
저자: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI

초록

병렬 테스트 타임 스케일링(TTS)은 대규모 언어 모델(LLM)의 성능을 향상시키는 핵심적인 접근 방식으로, 일반적으로 다중 토큰 기반 사고 연쇄(Chain-of-Thought)를 병렬로 샘플링하고 투표 또는 탐색을 통해 결과를 집계하는 방식으로 이루어집니다. 최근 중간 추론이 연속 벡터 공간에서 전개되는 잠재 추론(latent reasoning) 분야의 발전은 명시적 사고 연쇄보다 더 효율적인 대안을 제공하지만, 이러한 잠재 모델이 병렬 TTS로부터 유사한 이점을 얻을 수 있는지는 여전히 미해결 문제로 남아 있습니다. 이는 주로 연속 공간에서의 샘플링 메커니즘이 부족하고, 고급 궤적 집계를 위한 확률적 신호가 없기 때문입니다. \ 본 연구는 이러한 문제를 해결함으로써 잠재 추론 모델에 대한 병렬 TTS를 가능하게 합니다. 샘플링을 위해 몬테카를로 드롭아웃(Monte Carlo Dropout)과 가우시안 노이즈 추가(Additive Gaussian Noise)라는 두 가지 불확실성 기반 확률적 전략을 도입합니다. 집계를 위해 단계별 대조 목적(step-wise contrastive objective)으로 훈련된 잠재 보상 모델(Latent Reward Model, LatentRM)을 설계하여 잠재 추론을 점수화하고 안내합니다. 광범위한 실험과 시각화 분석을 통해 두 샘플링 전략이 계산 자원에 효과적으로 스케일링되며 독특한 탐색 역학을 보여주는 반면, LatentRM은 효과적인 궤적 선택을 가능하게 함을 확인했습니다. 이를 통해 우리의 탐구는 연속 공간에서의 확장 가능한 추론을 위한 새로운 방향을 열었습니다. 코드는 https://github.com/YRYangang/LatentTTS에서 공개되었습니다.
English
Parallel test-time scaling (TTS) is a pivotal approach for enhancing large language models (LLMs), typically by sampling multiple token-based chains-of-thought in parallel and aggregating outcomes through voting or search. Recent advances in latent reasoning, where intermediate reasoning unfolds in continuous vector spaces, offer a more efficient alternative to explicit Chain-of-Thought, yet whether such latent models can similarly benefit from parallel TTS remains open, mainly due to the absence of sampling mechanisms in continuous space, and the lack of probabilistic signals for advanced trajectory aggregation. \ This work enables parallel TTS for latent reasoning models by addressing the above issues. For sampling, we introduce two uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM) trained with step-wise contrastive objective to score and guide latent reasoning. Extensive experiments and visualization analyses show that both sampling strategies scale effectively with compute and exhibit distinct exploration dynamics, while LatentRM enables effective trajectory selection. Together, our explorations open a new direction for scalable inference in continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.
PDF52October 13, 2025