ChatPaper.aiChatPaper

RLFR: フロー環境を用いたLLMのための強化学習の拡張

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

October 11, 2025
著者: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLMs)の推論能力を向上させるための有望なフレームワークとして最近注目を集めています。しかし、二値検証を用いて最適化されたポリシーは、推論軌道における潜在的に価値ある探索を見落としがちです。ゴールデンプロセス報酬モデル(PRMs)の高いアノテーションコストを考慮し、最近の研究では、エントロピーやロジット空間から収集された尤度などの補助信号を用いてプロセストークンの報酬形成を試みています。本研究では、潜在空間から導出されたフロー報酬を用いてRLVRを形成する新たな視点を提供し、RLFRを提案します。RLFRでは、オフポリシーの高品質データとオンポリシーのリジェクトサンプリングデータからモデルの潜在空間のフローフィールドを構築し、その中でのポリシー潜在の速度偏差を定量化して報酬信号として利用します。RLFRは、確立されたフローフィールドが報酬信号収集のための健全な環境となり得ることを初めて示し、表現力豊かな潜在空間がまだ十分に探索されていないことを強調します。さらに、RLFRは任意のオフポリシーエキスパートデータを報酬信号構成のための参照として圧縮することができ、隠れ状態内に圧縮された効率的な文脈依存性が利用されることを示します。言語およびマルチモーダル推論ベンチマークでの実験は、フロー報酬の信頼性を実証し、補助信号を用いた報酬形成の有望なパラダイムを示唆しています。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a promising framework for improving reasoning abilities in Large Language Models (LLMs). However, policy optimized with binary verification prone to overlook potential valuable exploration in reasoning trajectory. In view of heavy annotation cost of golden Process Reward Models (PRMs), recent works attempt using auxiliary signals for reward shaping of process tokens, involving entropy and likelihood collected from logit space. In this work, we offer a novel perspective on shaping RLVR with flow rewards derived from latent space, and propose RLFR, where the flow fields of model latents are constructed from either off-policy high-quality data and on-policy rejection sampling data, and the velocity deviations of policy latents within it are quantified to serve as a reward signal. RLFR first demonstrates that a well-established flow field can be a sound environment for reward signal collection, highlighting the expressive latent space is much underexplored. Moreover, RLFR is able to compress any off-policy expert data as reference for constituting reward signals, and we show that the efficient context dependence compressed within the hidden states are utilized, rather than individual token-level denotation for context comprehending. Experiments on both language and multimodal reasoning benchmarks demonstrate the reliability of flow rewards, and suggesting a promising paradigm for reward shaping with auxiliary signals.
PDF352October 14, 2025