ChatPaper.aiChatPaper

GoRL: Агностичный к алгоритмам фреймворк для онлайн-обучения с подкреплением с генеративными политиками

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

December 2, 2025
Авторы: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An
cs.AI

Аннотация

Обучение с подкреплением (ОП) сталкивается с постоянным противоречием: политики, которые стабильно оптимизируются, часто оказываются слишком простыми для представления многомодальных распределений действий, необходимых для сложного управления. Гауссовские политики обеспечивают удобные для вычисления правдоподобия и гладкие градиенты, но их унимодальная форма ограничивает выразительность. В свою очередь, генеративные политики на основе диффузии или согласования потоков могут моделировать богатое многомодальное поведение; однако в онлайн-ОП они часто нестабильны из-за невычислимых правдоподобий и зашумленных градиентов, распространяющихся через глубокие цепи сэмплирования. Мы разрешаем это противоречие с помощью ключевого структурного принципа: разделения оптимизации и генерации. Основываясь на этом принципе, мы представляем GoRL (Generative Online Reinforcement Learning) — фреймворк, который оптимизирует вычислимую латентную политику, используя при этом условный генеративный декодер для синтеза действий. График обновления по двум временным масштабам позволяет латентной политике обучаться стабильно, в то время как декодер постепенно увеличивает выразительность, не требуя вычислимых правдоподобий действий. На ряде задач непрерывного управления GoRL последовательно превосходит как гауссовские политики, так и современные генеративные подходы. Примечательно, что в задаче HopperStand он достигает нормированного возврата выше 870, что более чем в 3 раза превышает результат сильнейшего базового метода. Эти результаты демонстрируют, что разделение оптимизации и генерации открывает практический путь к созданию политик, которые одновременно стабильны и обладают высокой выразительностью.
English
Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.
PDF152January 23, 2026