価値勾配流による強化学習
Reinforcement Learning via Value Gradient Flow
April 15, 2026
著者: Haoran Xu, Kaiwen Hu, Somayeh Sojoudi, Amy Zhang
cs.AI
要旨
本論文では、行動正則化強化学習(RL)を扱う。ここでは、参照分布(オフラインRLにおけるデータセットやLLM RLファインチューニングにおける基底モデル)への正則化が、分布外補間の誤りに起因する価値の過剰最適化を防ぐ上で重要である。既存手法は、大規模生成モデルへのスケーリングが困難な再パラメータ化ポリシー勾配に依存するか、あるいは行動サポートを超えた移動を試みる際に過度に保守的になりうる棄却サンプリングに依存している。本論文では、行動正則化RLのためのスケーラブルな新たなパラダイムであるValue Gradient Flow(VGF)を提案する。VGFは、行動正則化RLを、参照分布から価値関数が誘導する最適方策分布への写像としての最適輸送問題として定式化する。この輸送問題を、参照分布から初期化された粒子を価値勾配が誘導する離散勾配流によって解く。分析により、VGFが輸送バジェットを制御することで暗黙的に正則化を課すことを示す。VGFは明示的な方策のパラメータ化を排除しながらも表現力と柔軟性を維持し、これにより輸送バジェットを調整することで適応的なテスト時スケーリングを可能にする。広範な実験により、VGFが従来手法を大幅に上回り、オフラインRLベンチマーク(D4RL, OGBench)およびLLM RLタスクにおいて最先端の結果を達成することを実証する。コードと実行結果はhttps://ryanxhr.github.io/vgf で公開されている。
English
We study behavior-regularized reinforcement learning (RL), where regularization toward a reference distribution (the dataset in offline RL or the base model in LLM RL finetuning) is essential to prevent value over-optimization caused by erroneous out-of-distribution extrapolation. Existing methods either rely on reparameterized policy gradient, which are difficult to scale to large generative models, or on reject sampling, which can be overly conservative when attempting to move beyond the behavior support. In this paper, we propose Value Gradient Flow (VGF), a scalable new paradigm for behavior-regularized RL. VGF casts behavior-regularized RL as an optimal transport problem that maps the reference distribution to the value-induced optimal policy distribution. We solve this transport problem via discrete gradient flow, where value gradients guide particles initialized from the reference distribution. Our analysis shows that VGF imposes regularization implicitly by controlling the transport budget. VGF eliminates explicit policy parameterization while remaining expressive and flexible, this enables adaptive test-time scaling by adjusting the transport budget. Extensive experiments demonstrate that VGF significantly outperforms prior methods, achieving state-of-the-art results on offline RL benchmarks (D4RL, OGBench) and LLM RL tasks. Code and runs can be found at https://ryanxhr.github.io/vgf.