Más Allá de la Imitación: Aprendizaje por Refuerzo para la Planificación Latente Activa
Beyond Imitation: Reinforcement Learning for Active Latent Planning
January 29, 2026
Autores: Zhi Zheng, Wee Sun Lee
cs.AI
Resumen
Con el objetivo de lograr un razonamiento de cadena de pensamiento (CoT) eficiente y denso, los métodos de razonamiento latente ajustan modelos de lenguaje grandes (LLMs) para sustituir los tokens lingüísticos discretos por tokens latentes continuos. Estos métodos consumen menos tokens en comparación con el razonamiento CoT lingüístico convencional y tienen el potencial de planificar en un espacio latente denso. Sin embargo, los tokens latentes actuales generalmente se supervisan basándose en la imitación de etiquetas lingüísticas. Considerando que puede haber múltiples etiquetas CoT equivalentes pero diversas para una pregunta, imitar pasivamente una arbitraria puede dar lugar a representaciones subóptimas de los tokens latentes y a políticas de razonamiento latente deficientes, lo que socava la capacidad de planificación potencial y resulta en brechas claras entre el entrenamiento y la prueba. En este trabajo, enfatizamos la importancia de una planificación activa sobre el espacio de representación de los tokens latentes para alcanzar la política de razonamiento latente óptima. Por lo tanto, proponemos el método de Planificación Latente Activa (ATP-Latent), que modela el proceso de supervisión de los tokens latentes como un autoencoder variacional condicional (VAE) para obtener un espacio latente más suave. Además, para facilitar la política de razonamiento latente más razonable, ATP-Latent lleva a cabo un aprendizaje por refuerzo (RL) con una recompensa de coherencia auxiliar, que se calcula en función de la consistencia entre los contenidos decodificados por el VAE de los tokens latentes, permitiendo un proceso de RL guiado. En experimentos con LLaMA-1B, ATP-Latent demuestra una precisión +4.1% y un uso de tokens -3.3% en cuatro benchmarks en comparación con líneas base avanzadas. Los códigos están disponibles en https://github.com/zz1358m/ATP-Latent-master.
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.