GoRL: Uma Estrutura Agnóstica de Algoritmo para Aprendizagem por Reforço Online com Políticas Geradoras

Resumo

O aprendizado por reforço (RL) enfrenta uma tensão persistente: políticas estáveis para otimizar são frequentemente demasiado simples para representar as distribuições de ação multimodais necessárias para controle complexo. Políticas Gaussianas fornecem verossimilhanças tratáveis e gradientes suaves, mas sua forma unimodal limita a expressividade. Por outro lado, políticas generativas baseadas em difusão ou *flow matching* podem modelar comportamentos multimodais ricos; no entanto, no RL online, elas são frequentemente instáveis devido a verossimilhanças intratáveis e gradientes ruidosos que se propagam através de cadeias de amostragem profundas. Nós abordamos esta tensão com um princípio estrutural chave: desacoplar a otimização da geração. Com base nesta intuição, introduzimos o GoRL (*Generative Online Reinforcement Learning*), uma estrutura que otimiza uma política latente tratável enquanto utiliza um decodificador generativo condicional para sintetizar ações. Um cronograma de atualização em duas escalas de tempo permite que a política latente aprenda de forma estável, enquanto o decodificador aumenta progressivamente a expressividade, sem exigir verossimilhanças de ação tratáveis. Em uma variedade de tarefas de controle contínuo, o GoRL supera consistentemente tanto as políticas Gaussianas quanto os *baselines* recentes de políticas generativas. Notavelmente, na tarefa HopperStand, ele atinge um retorno normalizado acima de 870, mais de 3 vezes o do *baseline* mais forte. Estes resultados demonstram que separar a otimização da geração fornece um caminho prático para políticas que são ao mesmo tempo estáveis e altamente expressivas.

English

Reinforcement learning (RL) faces a persistent tension: policies that are stable to optimize are often too simple to represent the multimodal action distributions needed for complex control. Gaussian policies provide tractable likelihoods and smooth gradients, but their unimodal form limits expressiveness. Conversely, generative policies based on diffusion or flow matching can model rich multimodal behaviors; however, in online RL, they are frequently unstable due to intractable likelihoods and noisy gradients propagating through deep sampling chains. We address this tension with a key structural principle: decoupling optimization from generation. Building on this insight, we introduce GoRL (Generative Online Reinforcement Learning), a framework that optimizes a tractable latent policy while utilizing a conditional generative decoder to synthesize actions. A two-timescale update schedule enables the latent policy to learn stably while the decoder steadily increases expressiveness, without requiring tractable action likelihoods. Across a range of continuous-control tasks, GoRL consistently outperforms both Gaussian policies and recent generative-policy baselines. Notably, on the HopperStand task, it reaches a normalized return above 870, more than 3 times that of the strongest baseline. These results demonstrate that separating optimization from generation provides a practical path to policies that are both stable and highly expressive.

GoRL: Uma Estrutura Agnóstica de Algoritmo para Aprendizagem por Reforço Online com Políticas Geradoras

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

Resumo

Support