잠재 사고 연쇄를 계획으로: 추론과 언어화의 분리
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization
January 29, 2026
저자: Jiecong Wang, Hao Peng, Chunyang Liu
cs.AI
초록
체인 오브 쏘트(CoT)는 대규모 언어 모델(LLM)이 복잡한 문제를 해결할 수 있게 하지만, 이산적인 토큰 공간에 기반할 때 계산 비용과 추론 경로 붕괴 문제로 인해 제약을 받습니다. 최근 등장한 잠재 추론 방법론들은 연속적인 은닉 상태 내에서 추론을 수행함으로써 효율성을 극대화하려 시도합니다. 그러나 이러한 방법들은 일반적으로 명시적 추론 단계에서 잠재 상태로의 불투명한 종단간 매핑으로 작동하며, 추론 시 미리 정의된 수의 잠재 단계를 요구하는 경우가 많습니다. 본 연구에서는 잠재 추론을 근본적으로 언어화 과정으로부터 분리하여 계획 수립으로 재구성하는 PLaT(Planning with Latent Thoughts) 프레임워크를 소개합니다. 우리는 추론을 잠재 계획 상태의 결정론적 궤적으로 모델링하는 반면, 별도의 디코더는 이러한 사고를 필요할 때 텍스트로 구현합니다. 이러한 분리는 모델이 고정된 하이퍼파라미터에 의존하기보다는 추론 종료 시점을 동적으로 결정할 수 있게 합니다. 수학적 벤치마크에 대한 실험 결과는 뚜렷한 트레이드오프를 보여줍니다: PLaT는 베이스라인 대비 그리디 정확도는 낮지만, 추론 다양성 측면에서 뛰어난 확장성을 입증합니다. 이는 PLaT가 강력하고 더 넓은 해결 공간을 학습함을 의미하며, 추론 시간 탐색을 위한 투명하고 확장 가능한 기반을 제공합니다.
English
Chain-of-Thought (CoT) empowers Large Language Models (LLMs) to tackle complex problems, but remains constrained by the computational cost and reasoning path collapse when grounded in discrete token spaces. Recent latent reasoning approaches attempt to optimize efficiency by performing reasoning within continuous hidden states. However, these methods typically operate as opaque end-to-end mappings from explicit reasoning steps to latent states, and often require a pre-defined number of latent steps during inference. In this work, we introduce PLaT (Planning with Latent Thoughts), a framework that reformulates latent reasoning as planning by fundamentally decouple reasoning from verbalization. We model reasoning as a deterministic trajectory of latent planning states, while a separate Decoder grounds these thoughts into text when necessary. This decoupling allows the model to dynamically determine when to terminate reasoning rather than relying on fixed hyperparameters. Empirical results on mathematical benchmarks reveal a distinct trade-off: while PLaT achieves lower greedy accuracy than baselines, it demonstrates superior scalability in terms of reasoning diversity. This indicates that PLaT learns a robust, broader solution space, offering a transparent and scalable foundation for inference-time search.