ChatPaper.aiChatPaper

GoRL: 생성 정책을 활용한 온라인 강화 학습을 위한 알고리즘 독립적 프레임워크

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

December 2, 2025
저자: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An
cs.AI

초록

강화학습(RL)은 지속적인 딜레마에 직면해 있습니다: 최적화에 안정적인 정책은 종종 복잡한 제어에 필요한 다중 모드 행동 분포를 표현하기에는 지나치게 단순한 경우가 많습니다. 가우시안 정책은 다루기 쉬운 가능도와 부드러운 기울기를 제공하지만, 단일 모드 형태가 표현력을 제한합니다. 반대로, 확산 또는 흐름 매칭에 기반한 생성형 정책은 풍부한 다중 모드 행동을 모델링할 수 있지만, 온라인 RL에서는 다루기 어려운 가능도와 깊은 샘플링 체인을 통해 전파되는 잡음이 많은 기울기로 인해 종종 불안정합니다. 우리는 이 딜레마를 해결하기 위한 핵심 구조적 원칙인 '최적화와 생성의 분리'를 제시합니다. 이러한 통찰을 바탕으로, 우리는 다루기 쉬운 잠재 정책을 최적화하면서 조건부 생성 디코더를 활용하여 행동을 합성하는 프레임워크인 GoRL(Generative Online Reinforcement Learning)을 소개합니다. 이중 시간尺度 업데이트 일정을 통해 디코더가 다루기 쉬운 행동 가능도를 요구하지 않으면서도 꾸준히 표현력을 높일 동안 잠재 정책이 안정적으로 학습할 수 있습니다. 다양한 연속 제어 작업에서 GoRL은 가우시안 정책과 최신 생성형 정책 기준선을 모두 꾸준히 능가했습니다. 특히 HopperStand 작업에서 870 이상의 정규화된 수익을 달성하여 가장 강력한 기준선의 3배 이상의 성능을 보였습니다. 이러한 결과는 최적화와 생성을 분리하는 것이 안정적이면서도 매우 표현력 높은 정책으로 가는 실용적인 길을 제공함을 입증합니다.
English
Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.
PDF152January 23, 2026