ChatPaper.aiChatPaper

模倣を超えて:能動的潜在計画のための強化学習

Beyond Imitation: Reinforcement Learning for Active Latent Planning

January 29, 2026
著者: Zhi Zheng, Wee Sun Lee
cs.AI

要旨

効率的かつ高密度な連鎖思考(CoT)推論を目指し、潜在推論手法は大規模言語モデル(LLM)を微調整して、離散的な言語トークンを連続的な潜在トークンに置き換える。これらの手法は従来の言語CoT推論と比較して少ないトークンを消費し、高密度な潜在空間での計画が可能となる。しかし、現在の潜在トークンは一般に言語ラベルの模倣に基づいて教師付けされている。一つの質問に対して等価だが多様なCoTラベルが複数存在し得ることを考慮すると、受動的に任意のラベルを模倣することは、潜在トークン表現と潜在推論ポリシーを劣化させ、潜在的な計画能力を損ない、訓練とテストの間に明確な乖離を生じさせる可能性がある。本研究では、最適な潜在推論ポリシーを達成する上で、潜在トークンの表現空間における能動的計画の重要性を強調する。そこで我々は、潜在トークンの教師付けプロセスを条件付き変分オートエンコーダ(VAE)としてモデル化し、より滑らかな潜在空間を獲得する能動的潜在計画手法(ATP-Latent)を提案する。さらに、最も合理的な潜在推論ポリシーを促進するため、ATP-Latentは補助的一貫性報酬を用いた強化学習(RL)を実施する。この報酬は潜在トークンのVAE復号内容間の一貫性に基づいて計算され、ガイド付きRLプロセスを可能にする。LLaMA-1Bを用いた実験において、ATP-Latentは4つのベンチマークで先進的なベースラインと比較して+4.1%の精度向上と-3.3%のトークン削減を実証した。コードはhttps://github.com/zz1358m/ATP-Latent-master で公開されている。
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.
PDF53January 31, 2026