ChatPaper.aiChatPaper

GoRL: 生成方策を用いたオンライン強化学習のためのアルゴリズム非依存フレームワーク

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

December 2, 2025
著者: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An
cs.AI

要旨

強化学習(RL)には永続的なジレンマが存在する:最適化が安定する方策は、複雑な制御に必要なマルチモーダルな行動分布を表現するには単純すぎることが多い。ガウス方策は扱いやすい尤度と滑らかな勾配を提供するが、その単峰性が表現力を制限する。逆に、拡散モデルやフローマッチングに基づく生成的方策は豊富なマルチモーダルな振る舞いをモデル化できるが、オンライン強化学習では、扱いにくい尤度と深いサンプリング連鎖を伝播するノイズの多い勾配により不安定になりがちである。我々はこのジレンマを、最適化と生成を分離するという重要な構造原理によって解決する。この知見に基づき、扱いやすい潜在方策を最適化しつつ、条件付き生成デコーダを用いて行動を合成するフレームワークGoRL(Generative Online Reinforcement Learning)を提案する。二つの時間スケールによる更新スケジュールにより、潜在方策は安定して学習し、デコーダは扱いやすい行動尤度を必要とせずに着実に表現力を高めることができる。連続制御タスクにおける一連の実験で、GoRLはガウス方策と近年の生成的方策ベースラインの両方を一貫して上回った。特にHopperStandタスクでは、正規化収益が870以上に達し、最強のベースラインの3倍以上を達成した。これらの結果は、最適化と生成を分離することが、安定性と高い表現力を両立する方策への実用的な道筋を提供することを実証している。
English
Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.
PDF152January 23, 2026