Hybride Latente Redenering via Reinforcement Learning
Hybrid Latent Reasoning via Reinforcement Learning
May 24, 2025
Auteurs: Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben latent redeneren geïntroduceerd als een veelbelovend alternatief voor autoregressief redeneren. Door interne berekeningen uit te voeren met verborgen toestanden van vorige stappen, profiteert latent redeneren van meer informatieve kenmerken in plaats van een discrete keten-van-gedachten (CoT) te bemonsteren. Toch zijn latent redeneren-benaderingen vaak niet compatibel met LLMs, omdat hun continue paradigma botst met de discrete aard van autoregressieve generatie. Bovendien zijn deze methoden afhankelijk van CoT-sporen voor training en slagen ze er daarom niet in om de inherente redeneerpatronen van LLMs te benutten. In dit werk onderzoeken we latent redeneren door gebruik te maken van de intrinsieke mogelijkheden van LLMs via reinforcement learning (RL). Hiertoe introduceren we hybrid reasoning policy optimization (HRPO), een RL-gebaseerde hybride latent redeneren-benadering die (1) eerdere verborgen toestanden integreert in bemonsterde tokens met een leerbaar gating-mechanisme, en (2) de training initialiseert met voornamelijk token-embeddings terwijl geleidelijk meer verborgen kenmerken worden opgenomen. Dit ontwerp behoudt de generatieve mogelijkheden van LLMs en stimuleert hybride redeneren met behulp van zowel discrete als continue representaties. Daarnaast introduceert de hybride HRPO stochastiek in latent redeneren via token-bemonstering, waardoor RL-gebaseerde optimalisatie mogelijk wordt zonder CoT-trajecten te vereisen. Uitgebreide evaluaties over diverse benchmarks tonen aan dat HRPO eerdere methoden overtreft in zowel kennis- als redeneerintensieve taken. Bovendien blijven HRPO-getrainde LLMs interpreteerbaar en vertonen ze intrigerend gedrag zoals cross-linguale patronen en kortere voltooiingslengtes, wat het potentieel van onze RL-gebaseerde benadering benadrukt en inzichten biedt voor toekomstig werk in latent redeneren.
English
Recent advances in large language models (LLMs) have introduced latent
reasoning as a promising alternative to autoregressive reasoning. By performing
internal computation with hidden states from previous steps, latent reasoning
benefit from more informative features rather than sampling a discrete
chain-of-thought (CoT) path. Yet latent reasoning approaches are often
incompatible with LLMs, as their continuous paradigm conflicts with the
discrete nature of autoregressive generation. Moreover, these methods rely on
CoT traces for training and thus fail to exploit the inherent reasoning
patterns of LLMs. In this work, we explore latent reasoning by leveraging the
intrinsic capabilities of LLMs via reinforcement learning (RL). To this end, we
introduce hybrid reasoning policy optimization (HRPO), an RL-based hybrid
latent reasoning approach that (1) integrates prior hidden states into sampled
tokens with a learnable gating mechanism, and (2) initializes training with
predominantly token embeddings while progressively incorporating more hidden
features. This design maintains LLMs' generative capabilities and incentivizes
hybrid reasoning using both discrete and continuous representations. In
addition, the hybrid HRPO introduces stochasticity into latent reasoning via
token sampling, thereby enabling RL-based optimization without requiring CoT
trajectories. Extensive evaluations across diverse benchmarks show that HRPO
outperforms prior methods in both knowledge- and reasoning-intensive tasks.
Furthermore, HRPO-trained LLMs remain interpretable and exhibit intriguing
behaviors like cross-lingual patterns and shorter completion lengths,
highlighting the potential of our RL-based approach and offer insights for
future work in latent reasoning.