Voorbij Imitatie: Reinforcement Learning voor Actieve Latente Planning
Beyond Imitation: Reinforcement Learning for Active Latent Planning
January 29, 2026
Auteurs: Zhi Zheng, Wee Sun Lee
cs.AI
Samenvatting
Met het oog op efficiënte en dense chain-of-thought (CoT) redenering, fine-tunen latent redeneermethoden Large Language Models (LLM's) om discrete taaltokens te vervangen door continue latente tokens. Deze methoden verbruiken minder tokens in vergelijking met conventionele taal-CoT-redenering en hebben het potentieel om te plannen in een dense latente ruimte. Echter, huidige latente tokens worden over het algemeen gesuperviseerd op basis van het imiteren van taallabels. Aangezien er voor een vraag meerdere equivalente maar diverse CoT-labels kunnen bestaan, kan het passief imiteren van een willekeurige label leiden tot inferieure latente tokenrepresentaties en latent redeneerbeleid, wat het planvermogen ondermijnt en duidelijke kloeven tussen training en testing veroorzaakt. In dit werk benadrukken we het belang van actieve planning over de representatieruimte van latente tokens voor het bereiken van het optimale latent redeneerbeleid. Daarom stellen we de Active Latent Planning-methode (ATP-Latent) voor, die het supervisieproces van latente tokens modelleert als een conditionele variational auto-encoder (VAE) om een vloeiendere latente ruimte te verkrijgen. Bovendien voert ATP-Latent reinforcement learning (RL) uit met een aanvullende coherentiebeloning om het meest redelijke latent redeneerbeleid te bevorderen. Deze beloning wordt berekend op basis van de consistentie tussen VAE-gedecodeerde inhoud van latente tokens, wat een geleid RL-proces mogelijk maakt. In experimenten op LLaMA-1B demonstreert ATP-Latent een nauwkeurigheid van +4,1% en -3,3% tokens op vier benchmarks in vergelijking met geavanceerde baseline-methoden. Code is beschikbaar op https://github.com/zz1358m/ATP-Latent-master.
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.