모방을 넘어서: 능동 잠재 계획을 위한 강화 학습
Beyond Imitation: Reinforcement Learning for Active Latent Planning
January 29, 2026
저자: Zhi Zheng, Wee Sun Lee
cs.AI
초록
효율적이고 밀집된 사고 연쇄(CoT) 추론을 목표로 하는 잠재 추론 방법은 대규모 언어 모델(LLM)을 미세 조정하여 이산적인 언어 토큰을 연속적인 잠재 토큰으로 대체합니다. 이러한 방법은 기존 언어 CoT 추론에 비해 더 적은 토큰을 소비하며 밀집된 잠재 공간에서 계획을 수립할 잠재력을 가지고 있습니다. 그러나 현재 잠재 토큰은 일반적으로 언어 레이블 모방을 기반으로 지도 학습됩니다. 하나의 질문에 대해 동등하지만 다양할 수 있는 여러 CoT 레이블이 존재할 수 있다는 점을 고려할 때, 특정 레이블을 수동적으로 모방하는 것은 열등한 잠재 토큰 표현과 잠재 추론 정책을 초래하여 잠재적인 계획 수립 능력을 저해하고 훈련과 테스트 간에 명확한 격차를 만들어낼 수 있습니다. 본 연구에서는 최적의 잠재 추론 정책을 달성하기 위해 잠재 토큰의 표현 공간을 통한 능동적 계획 수립의 중요성을 강조합니다. 따라서 우리는 더 매끄러운 잠재 공간을 얻기 위해 잠재 토큰의 지도 학습 과정을 조건부 변분 자동인코더(VAE)로 모델링하는 능동적 잠재 계획(ATP-Latent) 방법을 제안합니다. 더 나아가 가장 합리적인 잠재 추론 정책을 촉진하기 위해 ATP-Latent는 보조 일관성 보상과 함께 강화 학습(RL)을 수행합니다. 이 보상은 잠재 토큰의 VAE 디코딩 내용 간 일관성을 기반으로 계산되어 지도된 RL 과정을 가능하게 합니다. LLaMA-1B에 대한 실험에서 ATP-Latent는 선행 베이스라인 대비 4개 벤치마크에서 +4.1%의 정확도와 -3.3%의 토큰 사용량을 보여주었습니다. 코드는 https://github.com/zz1358m/ATP-Latent-master에서 확인할 수 있습니다.
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.