Apprentissage par Renforcement Hors-Politique Résiduel pour l’Affinage des Politiques de Clonage Comportemental

papers.abstract

Les avancées récentes dans le domaine du clonage comportemental (BC) ont permis de développer des politiques de contrôle visuomoteur impressionnantes. Cependant, ces approches sont limitées par la qualité des démonstrations humaines, l'effort manuel requis pour la collecte de données et les rendements décroissants liés à l'augmentation des données hors ligne. En comparaison, l'apprentissage par renforcement (RL) entraîne un agent par interaction autonome avec l'environnement et a montré un succès remarquable dans divers domaines. Néanmoins, l'entraînement direct de politiques RL sur des robots réels reste difficile en raison de l'inefficacité des échantillons, des préoccupations de sécurité et de la difficulté d'apprentissage à partir de récompenses éparses pour des tâches à long terme, en particulier pour les systèmes à degrés de liberté (DoF) élevés. Nous présentons une méthode qui combine les avantages du BC et du RL à travers un cadre d'apprentissage résiduel. Notre approche exploite les politiques BC comme bases en boîte noire et apprend des corrections résiduelles légères par étape via un RL hors politique efficace en termes d'échantillons. Nous démontrons que notre méthode ne nécessite que des signaux de récompense binaires épars et peut améliorer efficacement les politiques de manipulation sur des systèmes à degrés de liberté élevés, à la fois en simulation et dans le monde réel. En particulier, nous démontrons, à notre connaissance, le premier entraînement RL réussi sur un robot humanoïde doté de mains dextres. Nos résultats montrent des performances de pointe dans diverses tâches basées sur la vision, ouvrant une voie pratique pour le déploiement du RL dans le monde réel. Site web du projet : https://residual-offpolicy-rl.github.io

English

Recent advances in behavior cloning (BC) have enabled impressive visuomotor control policies. However, these approaches are limited by the quality of human demonstrations, the manual effort required for data collection, and the diminishing returns from increasing offline data. In comparison, reinforcement learning (RL) trains an agent through autonomous interaction with the environment and has shown remarkable success in various domains. Still, training RL policies directly on real-world robots remains challenging due to sample inefficiency, safety concerns, and the difficulty of learning from sparse rewards for long-horizon tasks, especially for high-degree-of-freedom (DoF) systems. We present a recipe that combines the benefits of BC and RL through a residual learning framework. Our approach leverages BC policies as black-box bases and learns lightweight per-step residual corrections via sample-efficient off-policy RL. We demonstrate that our method requires only sparse binary reward signals and can effectively improve manipulation policies on high-degree-of-freedom (DoF) systems in both simulation and the real world. In particular, we demonstrate, to the best of our knowledge, the first successful real-world RL training on a humanoid robot with dexterous hands. Our results demonstrate state-of-the-art performance in various vision-based tasks, pointing towards a practical pathway for deploying RL in the real world. Project website: https://residual-offpolicy-rl.github.io

Apprentissage par Renforcement Hors-Politique Résiduel pour l’Affinage des Politiques de Clonage Comportemental

Residual Off-Policy RL for Finetuning Behavior Cloning Policies

papers.abstract

Support