ChatPaper.aiChatPaper

GoRL : un cadre agnostique aux algorithmes pour l'apprentissage par renforcement en ligne avec des politiques génératives

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

December 2, 2025
papers.authors: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) est confronté à une tension persistante : les politiques stables à optimiser sont souvent trop simples pour représenter les distributions d'actions multimodales nécessaires au contrôle complexe. Les politiques gaussiennes offrent des vraisemblances traitables et des gradients réguliers, mais leur forme unimodale limite leur expressivité. À l'inverse, les politiques génératives basées sur la diffusion ou l'appariement de flux peuvent modéliser des comportements multimodaux riches ; cependant, en RL en ligne, elles sont souvent instables en raison de vraisemblances intraitable et de gradients bruyants se propageant à travers des chaînes d'échantillonnage profondes. Nous abordons cette tension avec un principe structurel clé : découpler l'optimisation de la génération. En nous appuyant sur cette idée, nous introduisons GoRL (Generative Online Reinforcement Learning), un cadre qui optimise une politique latente traitable tout en utilisant un décodeur génératif conditionnel pour synthétiser les actions. Un calendrier de mise à jour à deux échelles de temps permet à la politique latente d'apprendre de manière stable tandis que le décodeur augmente régulièrement l'expressivité, sans nécessiter de vraisemblances d'actions traitables. Sur une série de tâches de contrôle continu, GoRL surpasse systématiquement à la fois les politiques gaussiennes et les bases de référence récentes de politiques génératives. Notamment, sur la tâche HopperStand, il atteint un retour normalisé supérieur à 870, soit plus de 3 fois celui de la base de référence la plus performante. Ces résultats démontrent que séparer l'optimisation de la génération offre une voie pratique vers des politiques à la fois stables et hautement expressives.
English
Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.
PDF152January 23, 2026