ChatPaper.aiChatPaper

Au-delà de l'imitation : Apprentissage par renforcement pour la planification latente active

Beyond Imitation: Reinforcement Learning for Active Latent Planning

January 29, 2026
papers.authors: Zhi Zheng, Wee Sun Lee
cs.AI

papers.abstract

Dans le but d'obtenir un raisonnement en chaîne de pensée (CoT) efficace et dense, les méthodes de raisonnement latent optimisent les grands modèles de langage (LLM) pour substituer aux jetons linguistiques discrets des jetons latents continus. Ces méthodes consomment moins de jetons que le raisonnement CoT linguistique conventionnel et ont le potentiel de planifier dans un espace latent dense. Cependant, les jetons latents actuels sont généralement supervisés en imitant des étiquettes linguistiques. Étant donné qu'il peut exister plusieurs étiquettes CoT équivalentes mais diverses pour une question, imiter passivement l'une d'elles arbitrairement peut conduire à des représentations de jetons latents et des politiques de raisonnement latent sous-optimales, compromettant la capacité de planification potentielle et créant un écart notable entre l'entraînement et les tests. Dans ce travail, nous soulignons l'importance d'une planification active sur l'espace de représentation des jetons latents pour atteindre la politique de raisonnement latent optimale. Ainsi, nous proposons la méthode de Planification Latente Active (ATP-Latent), qui modélise le processus de supervision des jetons latents comme un auto-encodeur variationnel conditionnel (VAE) pour obtenir un espace latent plus lisse. De plus, pour favoriser la politique de raisonnement latent la plus raisonnable, ATP-Latent met en œuvre un apprentissage par renforcement (RL) avec une récompense de cohérence auxiliaire, calculée sur la base de la cohérence entre les contenus décodés par le VAE des jetons latents, permettant un processus de RL guidé. Lors d'expériences sur LLaMA-1B, ATP-Latent démontre une précision supérieure de +4,1 % et une réduction de 3,3 % du nombre de jetons sur quatre benchmarks par rapport aux méthodes de référence avancées. Les codes sont disponibles sur https://github.com/zz1358m/ATP-Latent-master.
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.
PDF53January 31, 2026