Hybride latente Argumentation durch Reinforcement Learning
Hybrid Latent Reasoning via Reinforcement Learning
May 24, 2025
Autoren: Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben latentes Denken als vielversprechende Alternative zum autoregressiven Denken eingeführt. Durch die interne Berechnung mit verborgenen Zuständen aus vorherigen Schritten profitiert latentes Denken von informativeren Merkmalen, anstatt einen diskreten Pfad der Gedankenkette (Chain-of-Thought, CoT) zu samplen. Dennoch sind latente Denkansätze oft nicht mit LLMs kompatibel, da ihr kontinuierliches Paradigma mit der diskreten Natur der autoregressiven Generierung in Konflikt steht. Darüber hinaus stützen sich diese Methoden auf CoT-Spuren für das Training und nutzen somit die inhärenten Denkmuster von LLMs nicht aus. In dieser Arbeit untersuchen wir latentes Denken, indem wir die intrinsischen Fähigkeiten von LLMs durch Reinforcement Learning (RL) nutzen. Zu diesem Zweck führen wir die Hybrid Reasoning Policy Optimization (HRPO) ein, einen RL-basierten hybriden latenten Denkansatz, der (1) vorherige verborgene Zustände mit einem lernbaren Gating-Mechanismus in gesamplete Tokens integriert und (2) das Training überwiegend mit Token-Embeddings initialisiert, während schrittweise mehr verborgene Merkmale einbezogen werden. Dieses Design bewahrt die generativen Fähigkeiten von LLMs und fördert hybrides Denken unter Verwendung sowohl diskreter als auch kontinuierlicher Repräsentationen. Darüber hinaus führt die hybride HRPO durch Token-Sampling Stochastizität in das latente Denken ein, wodurch RL-basierte Optimierung ohne die Notwendigkeit von CoT-Trajektorien ermöglicht wird. Umfangreiche Evaluierungen über diverse Benchmarks zeigen, dass HRPO frühere Methoden sowohl bei wissens- als auch denkintensiven Aufgaben übertrifft. Darüber hinaus bleiben mit HRPO trainierte LLMs interpretierbar und zeigen interessante Verhaltensweisen wie mehrsprachige Muster und kürzere Abschlusslängen, was das Potenzial unseres RL-basierten Ansatzes unterstreicht und Einblicke für zukünftige Arbeiten im Bereich des latenten Denkens bietet.
English
Recent advances in large language models (LLMs) have introduced latent
reasoning as a promising alternative to autoregressive reasoning. By performing
internal computation with hidden states from previous steps, latent reasoning
benefit from more informative features rather than sampling a discrete
chain-of-thought (CoT) path. Yet latent reasoning approaches are often
incompatible with LLMs, as their continuous paradigm conflicts with the
discrete nature of autoregressive generation. Moreover, these methods rely on
CoT traces for training and thus fail to exploit the inherent reasoning
patterns of LLMs. In this work, we explore latent reasoning by leveraging the
intrinsic capabilities of LLMs via reinforcement learning (RL). To this end, we
introduce hybrid reasoning policy optimization (HRPO), an RL-based hybrid
latent reasoning approach that (1) integrates prior hidden states into sampled
tokens with a learnable gating mechanism, and (2) initializes training with
predominantly token embeddings while progressively incorporating more hidden
features. This design maintains LLMs' generative capabilities and incentivizes
hybrid reasoning using both discrete and continuous representations. In
addition, the hybrid HRPO introduces stochasticity into latent reasoning via
token sampling, thereby enabling RL-based optimization without requiring CoT
trajectories. Extensive evaluations across diverse benchmarks show that HRPO
outperforms prior methods in both knowledge- and reasoning-intensive tasks.
Furthermore, HRPO-trained LLMs remain interpretable and exhibit intriguing
behaviors like cross-lingual patterns and shorter completion lengths,
highlighting the potential of our RL-based approach and offer insights for
future work in latent reasoning.Summary
AI-Generated Summary