Orientação por Gradiente em Tempo de Teste de Políticas de Fluxo no Aprendizado por Reforço

Resumo

Políticas de controle contínuo expressivas, como modelos de difusão e fluxo, constituem a base dos avanços recentes na escalabilidade da aprendizagem por imitação para controle robótico simulado e real. Embora sejam conhecidas por escalarem de forma estável no cenário de aprendizagem por imitação supervisionada, incorporá-las em pipelines de aprendizado por reforço (RL) para melhoria de políticas tem se mostrado mais difícil. Frequentemente, isso requer objetivos de treinamento especializados ou retropropagação através de processos de denoising, o que causa problemas conhecidos de estabilidade e afeta a escalabilidade. Neste artigo, investigamos a questão de se esquemas simples de melhoria de política apenas no momento do teste, mantendo intacto o treinamento supervisionado estável da política, podem ser uma alternativa competitiva que contorna esses problemas. Para isso, propomos o QGF (Q-Guided Flow), um algoritmo de RL que realiza otimização de política inteiramente no momento do teste. O QGF funciona pré-treinando tanto uma política de fluxo de referência (através de um objetivo padrão de clonagem comportamental) quanto um crítico de função de valor e, no momento do teste, utilizando o gradiente do valor para guiar a política de referência a gerar ações de maior valor, sem qualquer aprendizado adicional de política. Empiricamente, o QGF supera métodos anteriores de RL em tempo de teste em benchmarks de RL offline de tarefa única e condicionados a objetivos com espaços de ação de alta dimensão, e é competitivo com algoritmos estado-da-arte que treinam durante o treino, sendo muito mais barato de executar. Além disso, apresenta uma escalabilidade favorável ao tamanho do modelo, evitando a instabilidade do treinamento ator-crítico, oferecendo um algoritmo de RL alternativo prático e eficaz com políticas expressivas.

English

Expressive continuous control policies, such as diffusion and flow models, form the backbone of recent advances in scaling imitation learning for simulated and real robot control. While they are known to scale stably in the supervised imitation learning setting, incorporating them into reinforcement learning (RL) pipelines for policy improvement has proven more difficult. It often requires specialized training objectives or backpropagating through denoising processes, which cause well-known issues with stability and affect scalability. In this paper we study the question of whether simple policy improvement schemes at test time alone, leaving stable supervised policy training intact, can be a competitive alternative which sidesteps these issues. To this end, we propose QGF (Q-Guided Flow), an RL algorithm that performs policy optimization entirely at test time. QGF works by pre-training both a reference flow policy (via a standard behavioral cloning objective) and a value function critic and, at test time, using the value gradient to guide the reference policy to generate higher-value actions without any additional policy learning. Empirically, QGF outperforms prior test-time RL methods on single-task and goal-conditioned offline RL benchmarks with high-dimensional action spaces, and is competitive with state-of-the-art training-time algorithms while being much cheaper to run. Moreover, it exhibits favorable scaling with model size by avoiding the instability of actor-critic training, offering a practical and effective alternative RL algorithm with expressive policies.