ChatPaper.aiChatPaper

Jenseits der Imitation: Verstärkungslernen für aktive latente Planung

Beyond Imitation: Reinforcement Learning for Active Latent Planning

January 29, 2026
papers.authors: Zhi Zheng, Wee Sun Lee
cs.AI

papers.abstract

Um effizientes und dichtes Chain-of-Thought (CoT)-Reasoning zu erreichen, optimieren latente Reasoning-Methoden Large Language Models (LLMs) so, dass sie diskrete Sprach-Tokens durch kontinuierliche latente Tokens ersetzen. Diese Methoden verbrauchen im Vergleich zum konventionellen sprachbasierten CoT-Reasoning weniger Tokens und haben das Potenzial, in einem dichten latenten Raum zu planen. Allerdings werden aktuelle latente Tokens in der Regel durch Nachahmung von Sprach-Labels supervidiert. Da es für eine Frage mehrere äquivalente, aber unterschiedliche CoT-Labels geben kann, kann die passive Nachahmung eines beliebigen Labels zu minderwertigen latenten Token-Repräsentationen und latenten Reasoning-Strategien führen, was die potenzielle Planungsfähigkeit beeinträchtigt und zu deutlichen Lücken zwischen Training und Testphase führt. In dieser Arbeit betonen wir die Bedeutung einer aktiven Planung über den Repräsentationsraum der latenten Tokens hinweg, um die optimale latente Reasoning-Strategie zu erreichen. Daher schlagen wir die Active Latent Planning-Methode (ATP-Latent) vor, die den Supervisionsprozess der latenten Tokens als Conditional Variational Auto-Encoder (VAE) modelliert, um einen glatteren latenten Raum zu erhalten. Darüber hinaus führt ATP-Latent Reinforcement Learning (RL) mit einer zusätzlichen Kohärenz-Belohnung durch, die auf der Konsistenz zwischen den VAE-dekodierten Inhalten der latenten Tokens basiert, um einen gelenkten RL-Prozess zu ermöglichen und so die sinnvollste latente Reasoning-Strategie zu fördern. In Experimenten mit LLaMA-1B erzielt ATP-Latent auf vier Benchmarks eine Steigerung der Genauigkeit um +4,1 % und eine Reduzierung der Tokens um -3,3 % im Vergleich zu fortschrittlichen Baseline-Methoden. Der Code ist verfügbar unter https://github.com/zz1358m/ATP-Latent-master.
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.
PDF53January 31, 2026