Гибридное латентное рассуждение с использованием обучения с подкреплением
Hybrid Latent Reasoning via Reinforcement Learning
May 24, 2025
Авторы: Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) представили латентное рассуждение как перспективную альтернативу авторегрессивному рассуждению. Выполняя внутренние вычисления с использованием скрытых состояний из предыдущих шагов, латентное рассуждение выигрывает от более информативных признаков, чем выбор дискретного пути цепочки мыслей (CoT). Однако подходы к латентному рассуждению часто несовместимы с LLM, поскольку их непрерывная парадигма противоречит дискретной природе авторегрессивной генерации. Более того, эти методы полагаются на траектории CoT для обучения и, таким образом, не используют внутренние паттерны рассуждения LLM. В данной работе мы исследуем латентное рассуждение, используя внутренние возможности LLM через обучение с подкреплением (RL). Для этого мы представляем гибридную оптимизацию политики рассуждения (HRPO), RL-подход к гибридному латентному рассуждению, который (1) интегрирует предыдущие скрытые состояния в сэмплированные токены с помощью обучаемого механизма управления и (2) инициализирует обучение преимущественно с использованием токенов, постепенно включая больше скрытых признаков. Этот дизайн сохраняет генеративные способности LLM и стимулирует гибридное рассуждение с использованием как дискретных, так и непрерывных представлений. Кроме того, гибридный HRPO вносит стохастичность в латентное рассуждение через сэмплирование токенов, что позволяет оптимизировать с помощью RL без необходимости траекторий CoT. Обширные оценки на различных бенчмарках показывают, что HRPO превосходит предыдущие методы как в задачах, требующих знаний, так и в задачах, требующих рассуждений. Более того, LLM, обученные с помощью HRPO, остаются интерпретируемыми и демонстрируют интересные поведенческие паттерны, такие как кросс-лингвистические закономерности и более короткие длины завершения, что подчеркивает потенциал нашего RL-подхода и предлагает направления для будущих исследований в области латентного рассуждения.
English
Recent advances in large language models (LLMs) have introduced latent
reasoning as a promising alternative to autoregressive reasoning. By performing
internal computation with hidden states from previous steps, latent reasoning
benefit from more informative features rather than sampling a discrete
chain-of-thought (CoT) path. Yet latent reasoning approaches are often
incompatible with LLMs, as their continuous paradigm conflicts with the
discrete nature of autoregressive generation. Moreover, these methods rely on
CoT traces for training and thus fail to exploit the inherent reasoning
patterns of LLMs. In this work, we explore latent reasoning by leveraging the
intrinsic capabilities of LLMs via reinforcement learning (RL). To this end, we
introduce hybrid reasoning policy optimization (HRPO), an RL-based hybrid
latent reasoning approach that (1) integrates prior hidden states into sampled
tokens with a learnable gating mechanism, and (2) initializes training with
predominantly token embeddings while progressively incorporating more hidden
features. This design maintains LLMs' generative capabilities and incentivizes
hybrid reasoning using both discrete and continuous representations. In
addition, the hybrid HRPO introduces stochasticity into latent reasoning via
token sampling, thereby enabling RL-based optimization without requiring CoT
trajectories. Extensive evaluations across diverse benchmarks show that HRPO
outperforms prior methods in both knowledge- and reasoning-intensive tasks.
Furthermore, HRPO-trained LLMs remain interpretable and exhibit intriguing
behaviors like cross-lingual patterns and shorter completion lengths,
highlighting the potential of our RL-based approach and offer insights for
future work in latent reasoning.Summary
AI-Generated Summary