ChatPaper.aiChatPaper

ThinkRouter: 잠재 공간과 이산 공간 간 사고 라우팅을 통한 효율적 추론

ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

February 12, 2026
저자: Xin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley, Saayan Mitra
cs.AI

초록

최근 연구에서는 명시적 추론 궤적을 잠재 공간의 연속적 표현으로 대체하여 추론 효율성을 향상시키는 잠재 추론을 탐구하고 있으나, 그 효과는 설정에 따라 다양하게 나타난다. 잠재 추론 하에서 모델 신뢰도 동역학을 분석한 결과, 잘못된 답으로 끝나는 사고 궤적이 정답으로 끝나는 궤적보다 낮은 신뢰도 단계가 더 적게 포함되는 것으로 나타났다. 한편, 여러 낮은 신뢰도 사고 대안들이 집계된 소프트 임베딩은 노이즈를 유발하고 전파하여 신뢰할 수 없는 추론 궤적에 대한 높은 신뢰도를 초래할 수 있음을 제안한다. 이러한 관찰 결과에 기반하여, 효율적 추론을 위해 높은 신뢰도와 노이즈를 피하는 추론 시점 신뢰도 인지 라우팅 메커니즘인 ThinkRouter를 제안한다. ThinkRouter는 모델 신뢰도가 낮을 때는 사고를 이산 토큰 공간으로 라우팅하고, 그렇지 않을 때는 잠재 공간으로 라우팅한다. 다양한 대규모 추론 모델을 대상으로 한 STEM 추론 및 코딩 벤치마크에서의 폭넓은 실험 결과, ThinkRouter는 명시적 CoT, 무작위 라우팅 및 잠재 추론 기준선을 정확도 측면에서 능가하며 Pass@1에서 평균 19.70점의 향상을 달성하는 동시에 생성 길이를 최대 15.55%까지 줄이는 것으로 나타났다. 추가적인 종합 분석을 통해 ThinkRouter는 명시적 CoT와 잠재 추론에서 발생하는 오류를 보정하고, 전역적으로 모델 신뢰도를 낮춤으로써 사고 종료 토큰 생성을 가속화할 수 있음을 확인하였다.
English
Recent work explores latent reasoning to improve reasoning efficiency by replacing explicit reasoning trajectories with continuous representations in a latent space, yet its effectiveness varies across settings. Analysis of model confidence dynamics under latent reasoning reveals that thinking trajectories ending in incorrect answers contain fewer low-confidence steps than those ending in correct answers. Meanwhile, we suggest that soft embeddings aggregated by multiple low-confidence thinking alternatives may introduce and propagate noise, leading to high confidence in unreliable reasoning trajectories. Motivated by these observations, ThinkRouter, an inference-time confidence-aware routing mechanism is proposed to avoid high confidence and noise for efficient reasoning. ThinkRouter routes thinking to the discrete token space when model confidence is low, and to the latent space otherwise. Extensive experiments on STEM reasoning and coding benchmarks across diverse large reasoning models demonstrate that ThinkRouter outperforms explicit CoT, random routing, and latent reasoning baselines in terms of accuracy, achieving an average improvement of 19.70 points in Pass@1, while reducing generation length by up to 15.55%. Further comprehensive analysis reveals that ThinkRouter can calibrate errors arising from explicit CoT and latent reasoning, and accelerates end-of-thinking token generation by globally lowering model confidence.
PDF51February 14, 2026