Raciocínio Latente Híbrido via Aprendizado por Reforço
Hybrid Latent Reasoning via Reinforcement Learning
May 24, 2025
Autores: Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala (LLMs) introduziram o raciocínio latente como uma alternativa promissora ao raciocínio autoregressivo. Ao realizar computação interna com estados ocultos de etapas anteriores, o raciocínio latente se beneficia de características mais informativas em vez de amostrar um caminho discreto de cadeia de pensamento (CoT). No entanto, abordagens de raciocínio latente frequentemente são incompatíveis com LLMs, pois seu paradigma contínuo entra em conflito com a natureza discreta da geração autoregressiva. Além disso, esses métodos dependem de traços de CoT para treinamento e, portanto, falham em explorar os padrões inerentes de raciocínio dos LLMs. Neste trabalho, exploramos o raciocínio latente aproveitando as capacidades intrínsecas dos LLMs por meio de aprendizado por reforço (RL). Para isso, introduzimos a otimização de política de raciocínio híbrido (HRPO), uma abordagem de raciocínio latente híbrida baseada em RL que (1) integra estados ocultos anteriores em tokens amostrados com um mecanismo de portão aprendível, e (2) inicializa o treinamento predominantemente com embeddings de tokens enquanto incorpora progressivamente mais características ocultas. Esse design mantém as capacidades gerativas dos LLMs e incentiva o raciocínio híbrido usando representações discretas e contínuas. Além disso, o HRPO híbrido introduz estocasticidade no raciocínio latente por meio da amostragem de tokens, permitindo assim a otimização baseada em RL sem exigir trajetórias de CoT. Avaliações extensas em diversos benchmarks mostram que o HRPO supera métodos anteriores tanto em tarefas intensivas em conhecimento quanto em raciocínio. Além disso, LLMs treinados com HRPO permanecem interpretáveis e exibem comportamentos intrigantes, como padrões translinguísticos e comprimentos de conclusão mais curtos, destacando o potencial de nossa abordagem baseada em RL e oferecendo insights para trabalhos futuros em raciocínio latente.
English
Recent advances in large language models (LLMs) have introduced latent
reasoning as a promising alternative to autoregressive reasoning. By performing
internal computation with hidden states from previous steps, latent reasoning
benefit from more informative features rather than sampling a discrete
chain-of-thought (CoT) path. Yet latent reasoning approaches are often
incompatible with LLMs, as their continuous paradigm conflicts with the
discrete nature of autoregressive generation. Moreover, these methods rely on
CoT traces for training and thus fail to exploit the inherent reasoning
patterns of LLMs. In this work, we explore latent reasoning by leveraging the
intrinsic capabilities of LLMs via reinforcement learning (RL). To this end, we
introduce hybrid reasoning policy optimization (HRPO), an RL-based hybrid
latent reasoning approach that (1) integrates prior hidden states into sampled
tokens with a learnable gating mechanism, and (2) initializes training with
predominantly token embeddings while progressively incorporating more hidden
features. This design maintains LLMs' generative capabilities and incentivizes
hybrid reasoning using both discrete and continuous representations. In
addition, the hybrid HRPO introduces stochasticity into latent reasoning via
token sampling, thereby enabling RL-based optimization without requiring CoT
trajectories. Extensive evaluations across diverse benchmarks show that HRPO
outperforms prior methods in both knowledge- and reasoning-intensive tasks.
Furthermore, HRPO-trained LLMs remain interpretable and exhibit intriguing
behaviors like cross-lingual patterns and shorter completion lengths,
highlighting the potential of our RL-based approach and offer insights for
future work in latent reasoning.