ChatPaper.aiChatPaper

GoRL: Een Algoritme-agnostisch Kader voor Online Reinforcement Learning met Generatieve Beleidsregels

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

December 2, 2025
Auteurs: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An
cs.AI

Samenvatting

Versterkend leren (RL) kampt met een hardnekkige spanning: beleidsfuncties die stabiel zijn om te optimaliseren, zijn vaak te eenvoudig om de multimodale actieverdelingen weer te geven die nodig zijn voor complexe controle. Gaussiaanse beleidsfuncties bieden hanteerbare aannemelijkheden en vloeiende gradiënten, maar hun unimodale vorm beperkt de expressiviteit. Omgekeerd kunnen generatieve beleidsfuncties op basis van diffusie of flow matching rijke multimodale gedragingen modelleren; in online RL zijn ze echter vaak onstabiel vanwege onhanteerbare aannemelijkheden en ruisachtige gradiënten die zich voortplanten door diepe samplingketens. Wij pakken deze spanning aan met een belangrijk structureel principe: het ontkoppelen van optimalisatie en generatie. Voortbordurend op dit inzicht introduceren we GoRL (Generative Online Reinforcement Learning), een raamwerk dat een hanteerbare latente beleidsfunctie optimaliseert terwijl het een conditionele generatieve decoder gebruikt om acties te synthetiseren. Een updateschema op twee tijdschalen stelt de latente beleidsfunctie in staat stabiel te leren, terwijl de decoder gestaag de expressiviteit vergroot, zonder dat hanteerbare actie-aannemelijkheden vereist zijn. Over een reeks continue-controletaken presteert GoRL consistent beter dan zowel Gaussiaanse beleidsfuncties als recente generatieve beleidsfunctie-basislijnen. Opmerkelijk is dat het bij de HopperStand-taak een genormaliseerde opbrengst van boven de 870 bereikt, meer dan 3 keer zo hoog als die van de sterkste basislijn. Deze resultaten tonen aan dat het scheiden van optimalisatie en generatie een praktisch pad biedt naar beleidsfuncties die zowel stabiel als zeer expressief zijn.
English
Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.
PDF152January 23, 2026