Guidage par gradient en phase de test des politiques de flot dans l'apprentissage par renforcement

Résumé

Les politiques de contrôle continu expressives, telles que les modèles de diffusion et de flux, constituent le fondement des récentes avancées en matière de passage à l'échelle de l'apprentissage par imitation pour le contrôle de robots simulés et réels. Bien qu'elles soient connues pour s'adapter de manière stable dans le cadre de l'apprentissage par imitation supervisée, leur intégration dans les pipelines d'apprentissage par renforcement (RL) en vue d'une amélioration de la politique s'est avérée plus difficile. Cela nécessite souvent des objectifs d'entraînement spécialisés ou une rétropropagation à travers les processus de débruitage, ce qui entraîne des problèmes bien connus de stabilité et affecte l'évolutivité. Dans cet article, nous étudions la question de savoir si des schémas simples d'amélioration de la politique uniquement au moment du test, tout en laissant intact l'entraînement supervisé stable de la politique, peuvent constituer une alternative compétitive qui contourne ces problèmes. À cette fin, nous proposons QGF (Flux Guidé par Q), un algorithme de RL qui réalise l'optimisation de la politique entièrement au moment du test. QGF fonctionne en pré-entraînant à la fois une politique de flux de référence (via un objectif standard de clonage comportemental) et un critique de fonction de valeur, et, au moment du test, utilise le gradient de valeur pour guider la politique de référence afin de générer des actions de plus grande valeur sans aucun apprentissage supplémentaire de la politique. Empiriquement, QGF surpasse les méthodes de RL au moment du test antérieures sur des benchmarks d'apprentissage par renforcement hors ligne à tâche unique et conditionnés par un objectif, avec des espaces d'action de grande dimension, et se montre compétitif avec les algorithmes à la pointe de la technologie qui s'entraînent au moment de l'apprentissage, tout en étant beaucoup moins coûteux à exécuter. De plus, il présente un passage à l'échelle favorable avec la taille du modèle en évitant l'instabilité de l'entraînement acteur-critique, offrant ainsi une alternative pratique et efficace aux algorithmes de RL utilisant des politiques expressives.

English

Expressive continuous control policies, such as diffusion and flow models, form the backbone of recent advances in scaling imitation learning for simulated and real robot control. While they are known to scale stably in the supervised imitation learning setting, incorporating them into reinforcement learning (RL) pipelines for policy improvement has proven more difficult. It often requires specialized training objectives or backpropagating through denoising processes, which cause well-known issues with stability and affect scalability. In this paper we study the question of whether simple policy improvement schemes at test time alone, leaving stable supervised policy training intact, can be a competitive alternative which sidesteps these issues. To this end, we propose QGF (Q-Guided Flow), an RL algorithm that performs policy optimization entirely at test time. QGF works by pre-training both a reference flow policy (via a standard behavioral cloning objective) and a value function critic and, at test time, using the value gradient to guide the reference policy to generate higher-value actions without any additional policy learning. Empirically, QGF outperforms prior test-time RL methods on single-task and goal-conditioned offline RL benchmarks with high-dimensional action spaces, and is competitive with state-of-the-art training-time algorithms while being much cheaper to run. Moreover, it exhibits favorable scaling with model size by avoiding the instability of actor-critic training, offering a practical and effective alternative RL algorithm with expressive policies.