ChatPaper.aiChatPaper

GoRL: Un Marco de Trabajo Independiente del Algoritmo para Aprendizaje por Refuerzo en Línea con Políticas Generativas

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

December 2, 2025
Autores: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An
cs.AI

Resumen

El aprendizaje por refuerzo (RL) enfrenta una tensión persistente: las políticas que son estables para optimizar suelen ser demasiado simples para representar las distribuciones de acciones multimodales necesarias para el control complejo. Las políticas gaussianas ofrecen verosimilitudes manejables y gradientes suaves, pero su forma unimodal limita su expresividad. Por el contrario, las políticas generativas basadas en difusión o "flow matching" pueden modelar comportamientos multimodales ricos; sin embargo, en el RL online, suelen ser inestables debido a verosimilitudes intratables y gradientes ruidosos que se propagan a través de cadenas de muestreo profundas. Abordamos esta tensión con un principio estructural clave: desacoplar la optimización de la generación. Basándonos en esta idea, presentamos GoRL (Generative Online Reinforcement Learning), un marco que optimiza una política latente manejable mientras utiliza un decodificador generativo condicional para sintetizar acciones. Un programa de actualización a dos escalas de tiempo permite que la política latente aprenda de forma estable mientras el decodificador aumenta constantemente la expresividad, sin requerir verosimilitudes de acción tratables. En una variedad de tareas de control continuo, GoRL supera consistentemente tanto a las políticas gaussianas como a los baselines recientes de políticas generativas. Notablemente, en la tarea HopperStand, alcanza un retorno normalizado superior a 870, más de 3 veces el del baseline más fuerte. Estos resultados demuestran que separar la optimización de la generación proporciona un camino práctico hacia políticas que son a la vez estables y altamente expresivas.
English
Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.
PDF152January 23, 2026