Ragionamento Latente Ibrido tramite Apprendimento per Rinforzo
Hybrid Latent Reasoning via Reinforcement Learning
May 24, 2025
Autori: Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno introdotto il ragionamento latente come una promettente alternativa al ragionamento autoregressivo. Eseguendo calcoli interni con stati nascosti provenienti da passaggi precedenti, il ragionamento latente beneficia di caratteristiche più informative rispetto al campionamento di un percorso discreto di catena di pensiero (CoT). Tuttavia, gli approcci di ragionamento latente sono spesso incompatibili con gli LLM, poiché il loro paradigma continuo entra in conflitto con la natura discreta della generazione autoregressiva. Inoltre, questi metodi si basano su tracce CoT per l'addestramento e quindi non riescono a sfruttare i modelli di ragionamento intrinseci degli LLM. In questo lavoro, esploriamo il ragionamento latente sfruttando le capacità intrinseche degli LLM tramite l'apprendimento per rinforzo (RL). A tal fine, introduciamo l'ottimizzazione della politica di ragionamento ibrido (HRPO), un approccio di ragionamento latente ibrido basato su RL che (1) integra stati nascosti precedenti in token campionati con un meccanismo di gate apprendibile e (2) inizializza l'addestramento con principalmente incorporamenti di token mentre incorpora progressivamente più caratteristiche nascoste. Questo design mantiene le capacità generative degli LLM e incentiva il ragionamento ibrido utilizzando sia rappresentazioni discrete che continue. Inoltre, l'HRPO ibrido introduce stocasticità nel ragionamento latente tramite il campionamento di token, consentendo così l'ottimizzazione basata su RL senza richiedere traiettorie CoT. Valutazioni estensive su diversi benchmark mostrano che l'HRPO supera i metodi precedenti sia in compiti basati sulla conoscenza che in quelli intensivi di ragionamento. Inoltre, gli LLM addestrati con HRPO rimangono interpretabili e mostrano comportamenti interessanti come modelli cross-linguistici e lunghezze di completamento più brevi, evidenziando il potenziale del nostro approccio basato su RL e offrendo spunti per futuri lavori sul ragionamento latente.
English
Recent advances in large language models (LLMs) have introduced latent
reasoning as a promising alternative to autoregressive reasoning. By performing
internal computation with hidden states from previous steps, latent reasoning
benefit from more informative features rather than sampling a discrete
chain-of-thought (CoT) path. Yet latent reasoning approaches are often
incompatible with LLMs, as their continuous paradigm conflicts with the
discrete nature of autoregressive generation. Moreover, these methods rely on
CoT traces for training and thus fail to exploit the inherent reasoning
patterns of LLMs. In this work, we explore latent reasoning by leveraging the
intrinsic capabilities of LLMs via reinforcement learning (RL). To this end, we
introduce hybrid reasoning policy optimization (HRPO), an RL-based hybrid
latent reasoning approach that (1) integrates prior hidden states into sampled
tokens with a learnable gating mechanism, and (2) initializes training with
predominantly token embeddings while progressively incorporating more hidden
features. This design maintains LLMs' generative capabilities and incentivizes
hybrid reasoning using both discrete and continuous representations. In
addition, the hybrid HRPO introduces stochasticity into latent reasoning via
token sampling, thereby enabling RL-based optimization without requiring CoT
trajectories. Extensive evaluations across diverse benchmarks show that HRPO
outperforms prior methods in both knowledge- and reasoning-intensive tasks.
Furthermore, HRPO-trained LLMs remain interpretable and exhibit intriguing
behaviors like cross-lingual patterns and shorter completion lengths,
highlighting the potential of our RL-based approach and offer insights for
future work in latent reasoning.