ChatPaper.aiChatPaper

GoRL: Ein algorithmenagnostisches Framework für Online Reinforcement Learning mit generativen Policies

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

December 2, 2025
papers.authors: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An
cs.AI

papers.abstract

Reinforcement Learning (RL) sieht sich mit einem grundlegenden Spannungsverhältnis konfrontiert: Strategien (Policies), die stabil zu optimieren sind, sind oft zu einfach, um die multimodalen Aktionsverteilungen darzustellen, die für komplexe Steuerungsaufgaben erforderlich sind. Gaußsche Policies bieten handhabbare Likelihoods und glatte Gradienten, doch ihre unimodale Form schränkt ihre Ausdruckskraft ein. Im Gegensatz dazu können generative Policies, die auf Diffusion oder Flow Matching basieren, reichhaltige multimodale Verhaltensweisen modellieren; jedoch sind sie im Online-RL häufig instabil, bedingt durch nicht handhabbare Likelihoods und verrauschte Gradienten, die sich durch tiefe Sampling-Ketten fortpflanzen. Wir begegnen diesem Spannungsverhältnis mit einem grundlegenden strukturellen Prinzip: der Entkopplung von Optimierung und Generierung. Aufbauend auf dieser Einsicht führen wir GoRL (Generative Online Reinforcement Learning) ein, ein Framework, das eine handhabbare latente Policy optimiert und gleichzeitig einen konditionalen generativen Decoder zur Synthese von Aktionen nutzt. Ein Zwei-Zeitskalen-Aktualisierungsplan ermöglicht es der latenten Policy, stabil zu lernen, während der Decoder stetig an Ausdruckskraft gewinnt, ohne handhabbare Aktions-Likelihoods zu benötigen. In einer Reihe von Continuous-Control-Aufgaben übertrifft GoRL durchgängig sowohl Gaußsche Policies als auch neuere generative Policy-Baselines. Besonders bemerkenswert ist, dass es bei der HopperStand-Aufgabe eine normalisierte Punktzahl von über 870 erreicht, was mehr als dem Dreifachen der stärksten Baseline entspricht. Diese Ergebnisse demonstrieren, dass die Trennung von Optimierung und Generierung einen praktikablen Weg zu Policies eröffnet, die sowohl stabil als auch hochgradig ausdrucksstark sind.
English
Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.
PDF152January 23, 2026