Além da Imitação: Aprendizagem por Reforço para Planeamento Latente Ativo
Beyond Imitation: Reinforcement Learning for Active Latent Planning
January 29, 2026
Autores: Zhi Zheng, Wee Sun Lee
cs.AI
Resumo
Com o objectivo de alcançar um raciocínio de cadeia de pensamento (CoT) eficiente e denso, os métodos de raciocínio latente afinam modelos de linguagem de grande escala (LLMs) para substituir tokens linguísticos discretos por tokens latentes contínuos. Estes métodos consomem menos tokens em comparação com o raciocínio CoT linguístico convencional e têm o potencial de planear num espaço latente denso. No entanto, os tokens latentes atuais são geralmente supervisionados com base na imitação de etiquetas linguísticas. Considerando que pode haver múltiplas etiquetas CoT equivalentes mas diversas para uma pergunta, a imitação passiva de uma arbitrária pode levar a representações de tokens latentes e políticas de raciocínio latente inferiores, prejudicando a capacidade de planeamento potencial e resultando em lacunas claras entre o treino e o teste. Neste trabalho, enfatizamos a importância de um planeamento ativo sobre o espaço de representação dos tokens latentes para alcançar a política de raciocínio latente ótima. Assim, propomos o método de Planeamento Latente Ativo (ATP-Latent), que modela o processo de supervisão dos tokens latentes como um auto-codificador variacional (VAE) condicional para obter um espaço latente mais suave. Adicionalmente, para facilitar a política de raciocínio latente mais razoável, o ATP-Latent realiza aprendizagem por reforço (RL) com uma recompensa de coerência auxiliar, que é calculada com base na consistência entre os conteúdos descodificados pelo VAE dos tokens latentes, permitindo um processo de RL guiado. Em experiências com o LLaMA-1B, o ATP-Latent demonstra +4,1% de precisão e -3,3% de tokens em quatro benchmarks em comparação com linhas de base avançadas. Os códigos estão disponíveis em https://github.com/zz1358m/ATP-Latent-master.
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.