GoRL: un framework indipendente dall'algoritmo per l'apprendimento per rinforzo online con politiche generative

Abstract

L'apprendimento per rinforzo (RL) affronta una tensione persistente: le policy che sono stabili da ottimizzare sono spesso troppo semplici per rappresentare le distribuzioni di azioni multimodali necessarie per il controllo complesso. Le policy gaussiane forniscono verosimiglianze trattabili e gradienti regolari, ma la loro forma unimodale ne limita l'espressività. Al contrario, le policy generative basate su modelli di diffusione o di flusso possono modellare comportamenti multimodali ricchi; tuttavia, nell'RL online, sono spesso instabili a causa di verosimiglianze intrattabili e gradienti rumorosi che si propagano attraverso catene di campionamento profonde. Affrontiamo questa tensione con un principio strutturale chiave: disaccoppiare l'ottimizzazione dalla generazione. Sulla base di questa intuizione, introduciamo GoRL (Generative Online Reinforcement Learning), un framework che ottimizza una policy latente trattabile utilizzando al contempo un decodificatore generativo condizionato per sintetizzare le azioni. Uno schema di aggiornamento a due scale temporali consente alla policy latente di apprendere in modo stabile mentre il decodificatore aumenta progressivamente l'espressività, senza richiedere verosimiglianze delle azioni trattabili. In una serie di compiti di controllo continuo, GoRL supera costantemente sia le policy gaussiane che i recenti baseline di policy generative. In particolare, nel compito HopperStand, raggiunge un ritorno normalizzato superiore a 870, più del triplo rispetto al baseline più forte. Questi risultati dimostrano che separare l'ottimizzazione dalla generazione fornisce un percorso pratico verso policy che sono sia stabili che altamente espressive.

English

Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.

GoRL: un framework indipendente dall'algoritmo per l'apprendimento per rinforzo online con politiche generative

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

Abstract

Support