ChatPaper.aiChatPaper

Donner un coup de main aux robots : Apprentissage de la manipulation généralisable grâce à des démonstrations vidéo humaines avec caméra embarquée

Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations

July 12, 2023
Auteurs: Moo Jin Kim, Jiajun Wu, Chelsea Finn
cs.AI

Résumé

Les caméras embarquées sur le bras robotique (eye-in-hand) ont montré leur potentiel pour améliorer l'efficacité des échantillons et la généralisation dans la manipulation robotique basée sur la vision. Cependant, pour l'imitation robotique, il reste coûteux de faire collecter par un opérateur humain de grandes quantités de démonstrations expertes avec un robot réel. Les vidéos d'humains exécutant des tâches, en revanche, sont beaucoup moins coûteuses à collecter, car elles éliminent le besoin d'expertise en téléopération robotique et peuvent être rapidement capturées dans une large gamme de scénarios. Par conséquent, les démonstrations vidéo humaines constituent une source de données prometteuse pour apprendre des politiques de manipulation robotique généralisables à grande échelle. Dans ce travail, nous enrichissons des ensembles de données étroits d'imitation robotique avec des démonstrations vidéo humaines non étiquetées et variées, afin d'améliorer considérablement la généralisation des politiques visuomotrices des caméras embarquées. Bien qu'un écart de domaine visuel évident existe entre les données humaines et robotiques, notre cadre ne nécessite aucune méthode explicite d'adaptation de domaine, car nous exploitons l'observabilité partielle des caméras embarquées ainsi qu'un simple masquage d'image fixe. Sur une série de huit tâches réelles impliquant le contrôle de bras robotiques à 3 et 6 degrés de liberté, notre méthode améliore les taux de réussite des politiques de manipulation des caméras embarquées de 58 % (en valeur absolue) en moyenne, permettant aux robots de généraliser à la fois à de nouvelles configurations d'environnement et à de nouvelles tâches qui ne sont pas présentes dans les données de démonstration robotique. Consultez les résultats vidéo sur https://giving-robots-a-hand.github.io/.
English
Eye-in-hand cameras have shown promise in enabling greater sample efficiency and generalization in vision-based robotic manipulation. However, for robotic imitation, it is still expensive to have a human teleoperator collect large amounts of expert demonstrations with a real robot. Videos of humans performing tasks, on the other hand, are much cheaper to collect since they eliminate the need for expertise in robotic teleoperation and can be quickly captured in a wide range of scenarios. Therefore, human video demonstrations are a promising data source for learning generalizable robotic manipulation policies at scale. In this work, we augment narrow robotic imitation datasets with broad unlabeled human video demonstrations to greatly enhance the generalization of eye-in-hand visuomotor policies. Although a clear visual domain gap exists between human and robot data, our framework does not need to employ any explicit domain adaptation method, as we leverage the partial observability of eye-in-hand cameras as well as a simple fixed image masking scheme. On a suite of eight real-world tasks involving both 3-DoF and 6-DoF robot arm control, our method improves the success rates of eye-in-hand manipulation policies by 58% (absolute) on average, enabling robots to generalize to both new environment configurations and new tasks that are unseen in the robot demonstration data. See video results at https://giving-robots-a-hand.github.io/ .
PDF30December 15, 2024