ChatPaper.aiChatPaper

Raisonnement Latent Hybride via Apprentissage par Renforcement

Hybrid Latent Reasoning via Reinforcement Learning

May 24, 2025
Auteurs: Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
cs.AI

Résumé

Les récents progrès dans les modèles de langage à grande échelle (LLMs) ont introduit le raisonnement latent comme une alternative prometteuse au raisonnement autorégressif. En effectuant des calculs internes avec des états cachés issus des étapes précédentes, le raisonnement latent bénéficie de caractéristiques plus informatives plutôt que de l'échantillonnage d'un chemin discret de pensée en chaîne (CoT). Cependant, les approches de raisonnement latent sont souvent incompatibles avec les LLMs, car leur paradigme continu entre en conflit avec la nature discrète de la génération autorégressive. De plus, ces méthodes s'appuient sur des traces CoT pour l'entraînement et échouent ainsi à exploiter les schémas de raisonnement inhérents aux LLMs. Dans ce travail, nous explorons le raisonnement latent en tirant parti des capacités intrinsèques des LLMs via l'apprentissage par renforcement (RL). À cette fin, nous introduisons l'optimisation de politique de raisonnement hybride (HRPO), une approche de raisonnement latent hybride basée sur le RL qui (1) intègre les états cachés précédents dans les tokens échantillonnés avec un mécanisme de gating apprenable, et (2) initialise l'entraînement principalement avec des embeddings de tokens tout en incorporant progressivement davantage de caractéristiques cachées. Cette conception préserve les capacités génératives des LLMs et encourage un raisonnement hybride utilisant à la fois des représentations discrètes et continues. En outre, l'HRPO hybride introduit une stochastique dans le raisonnement latent via l'échantillonnage de tokens, permettant ainsi une optimisation basée sur le RL sans nécessiter de trajectoires CoT. Des évaluations approfondies sur divers benchmarks montrent que l'HRPO surpasse les méthodes antérieures dans des tâches à la fois intensives en connaissances et en raisonnement. De plus, les LLMs entraînés avec HRPO restent interprétables et présentent des comportements intrigants comme des schémas multilingues et des longueurs de complétion plus courtes, mettant en lumière le potentiel de notre approche basée sur le RL et offrant des perspectives pour les travaux futurs sur le raisonnement latent.
English
Recent advances in large language models (LLMs) have introduced latent reasoning as a promising alternative to autoregressive reasoning. By performing internal computation with hidden states from previous steps, latent reasoning benefit from more informative features rather than sampling a discrete chain-of-thought (CoT) path. Yet latent reasoning approaches are often incompatible with LLMs, as their continuous paradigm conflicts with the discrete nature of autoregressive generation. Moreover, these methods rely on CoT traces for training and thus fail to exploit the inherent reasoning patterns of LLMs. In this work, we explore latent reasoning by leveraging the intrinsic capabilities of LLMs via reinforcement learning (RL). To this end, we introduce hybrid reasoning policy optimization (HRPO), an RL-based hybrid latent reasoning approach that (1) integrates prior hidden states into sampled tokens with a learnable gating mechanism, and (2) initializes training with predominantly token embeddings while progressively incorporating more hidden features. This design maintains LLMs' generative capabilities and incentivizes hybrid reasoning using both discrete and continuous representations. In addition, the hybrid HRPO introduces stochasticity into latent reasoning via token sampling, thereby enabling RL-based optimization without requiring CoT trajectories. Extensive evaluations across diverse benchmarks show that HRPO outperforms prior methods in both knowledge- and reasoning-intensive tasks. Furthermore, HRPO-trained LLMs remain interpretable and exhibit intriguing behaviors like cross-lingual patterns and shorter completion lengths, highlighting the potential of our RL-based approach and offer insights for future work in latent reasoning.

Summary

AI-Generated Summary

PDF52May 27, 2025