Oltre l'Imitazione: Apprendimento per Rinforzo per la Pianificazione Attiva Latente
Beyond Imitation: Reinforcement Learning for Active Latent Planning
January 29, 2026
Autori: Zhi Zheng, Wee Sun Lee
cs.AI
Abstract
Mirando a un ragionamento a catena del pensiero (CoT) efficiente e denso, i metodi di ragionamento latente effettuano il fine-tuning di Large Language Models (LLM) per sostituire i token linguistici discreti con token latenti continui. Questi metodi consumano meno token rispetto al convenzionale ragionamento CoT linguistico e hanno il potenziale di pianificare in uno spazio latente denso. Tuttavia, gli attuali token latenti sono generalmente supervisionati basandosi sull'imitazione di etichette linguistiche. Considerando che per una domanda possono esistere multiple etichette CoT equivalenti ma diverse, imitare passivamente una qualsiasi di esse può portare a rappresentazioni inferiori dei token latenti e a politiche di ragionamento latente subottimali, minando la potenziale capacità di pianificazione e risultando in chiari divari tra addestramento e test. In questo lavoro, sottolineiamo l'importanza di una pianificazione attiva sullo spazio di rappresentazione dei token latenti per raggiungere la politica di ragionamento latente ottimale. Pertanto, proponiamo il metodo Active Latent Planning (ATP-Latent), che modella il processo di supervisione dei token latenti come un variational auto-encoder (VAE) condizionale per ottenere uno spazio latente più regolare. Inoltre, per favorire la politica di ragionamento latente più ragionevole, ATP-Latent conduce un reinforcement learning (RL) con una ricompensa ausiliaria di coerenza, calcolata sulla base della consistenza tra i contenuti decodificati dal VAE dei token latenti, abilitando un processo di RL guidato. Negli esperimenti su LLaMA-1B, ATP-Latent dimostra un +4.1% di accuratezza e un -3.3% di token su quattro benchmark rispetto ai baseline avanzati. I codici sono disponibili su https://github.com/zz1358m/ATP-Latent-master.
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.