Razonamiento Latente Híbrido mediante Aprendizaje por Refuerzo
Hybrid Latent Reasoning via Reinforcement Learning
May 24, 2025
Autores: Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
cs.AI
Resumen
Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han introducido el razonamiento latente como una alternativa prometedora al razonamiento autoregresivo. Al realizar cálculos internos con estados ocultos de pasos anteriores, el razonamiento latente se beneficia de características más informativas en lugar de muestrear una cadena de pensamiento (CoT, por sus siglas en inglés) discreta. Sin embargo, los enfoques de razonamiento latente suelen ser incompatibles con los LLMs, ya que su paradigma continuo entra en conflicto con la naturaleza discreta de la generación autoregresiva. Además, estos métodos dependen de trazas de CoT para el entrenamiento y, por lo tanto, no logran explotar los patrones de razonamiento inherentes de los LLMs. En este trabajo, exploramos el razonamiento latente aprovechando las capacidades intrínsecas de los LLMs mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés). Para ello, introducimos la optimización de políticas de razonamiento híbrido (HRPO, por sus siglas en inglés), un enfoque de razonamiento latente híbrido basado en RL que (1) integra estados ocultos previos en tokens muestreados mediante un mecanismo de compuerta aprendible, y (2) inicializa el entrenamiento predominantemente con incrustaciones de tokens mientras incorpora progresivamente más características ocultas. Este diseño mantiene las capacidades generativas de los LLMs e incentiva el razonamiento híbrido utilizando representaciones tanto discretas como continuas. Además, el HRPO híbrido introduce estocasticidad en el razonamiento latente mediante el muestreo de tokens, lo que permite la optimización basada en RL sin requerir trayectorias de CoT. Evaluaciones exhaustivas en diversos benchmarks muestran que HRPO supera a métodos anteriores tanto en tareas intensivas en conocimiento como en razonamiento. Además, los LLMs entrenados con HRPO siguen siendo interpretables y exhiben comportamientos intrigantes, como patrones multilingües y longitudes de completado más cortas, lo que destaca el potencial de nuestro enfoque basado en RL y ofrece perspectivas para futuros trabajos en razonamiento latente.
English
Recent advances in large language models (LLMs) have introduced latent
reasoning as a promising alternative to autoregressive reasoning. By performing
internal computation with hidden states from previous steps, latent reasoning
benefit from more informative features rather than sampling a discrete
chain-of-thought (CoT) path. Yet latent reasoning approaches are often
incompatible with LLMs, as their continuous paradigm conflicts with the
discrete nature of autoregressive generation. Moreover, these methods rely on
CoT traces for training and thus fail to exploit the inherent reasoning
patterns of LLMs. In this work, we explore latent reasoning by leveraging the
intrinsic capabilities of LLMs via reinforcement learning (RL). To this end, we
introduce hybrid reasoning policy optimization (HRPO), an RL-based hybrid
latent reasoning approach that (1) integrates prior hidden states into sampled
tokens with a learnable gating mechanism, and (2) initializes training with
predominantly token embeddings while progressively incorporating more hidden
features. This design maintains LLMs' generative capabilities and incentivizes
hybrid reasoning using both discrete and continuous representations. In
addition, the hybrid HRPO introduces stochasticity into latent reasoning via
token sampling, thereby enabling RL-based optimization without requiring CoT
trajectories. Extensive evaluations across diverse benchmarks show that HRPO
outperforms prior methods in both knowledge- and reasoning-intensive tasks.
Furthermore, HRPO-trained LLMs remain interpretable and exhibit intriguing
behaviors like cross-lingual patterns and shorter completion lengths,
highlighting the potential of our RL-based approach and offer insights for
future work in latent reasoning.Summary
AI-Generated Summary