Apprendre à manipuler partout : un cadre visuel généralisable pour l'apprentissage par renforcement
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning
July 22, 2024
Auteurs: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI
Résumé
Pouvons-nous doter les robots visuomoteurs de capacités de généralisation pour opérer dans divers scénarios du monde réel ? Dans cet article, nous proposons Maniwhere, un cadre généralisable conçu pour l'apprentissage par renforcement visuel, permettant aux politiques de robot entraînées de généraliser à travers une combinaison de multiples types de perturbations visuelles. Plus précisément, nous introduisons une approche d'apprentissage de représentation multi-vues fusionnée avec un module de réseau de transformateur spatial (STN) pour capturer les informations sémantiques partagées et les correspondances entre différents points de vue. De plus, nous utilisons une approche de randomisation et d'augmentation basée sur un curriculum pour stabiliser le processus d'entraînement par renforcement et renforcer la capacité de généralisation visuelle. Pour démontrer l'efficacité de Maniwhere, nous avons soigneusement conçu 8 tâches englobant des objets articulés, des manipulations bi-manuelles et des tâches de manipulation dextre, montrant les fortes capacités de généralisation visuelle et de transfert sim2real de Maniwhere sur 3 plateformes matérielles. Nos expériences montrent que Maniwhere surpasse significativement les méthodes existantes de pointe. Les vidéos sont disponibles à l'adresse https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in
diverse open-world scenarios? In this paper, we propose Maniwhere, a
generalizable framework tailored for visual reinforcement learning, enabling
the trained robot policies to generalize across a combination of multiple
visual disturbance types. Specifically, we introduce a multi-view
representation learning approach fused with Spatial Transformer Network (STN)
module to capture shared semantic information and correspondences among
different viewpoints. In addition, we employ a curriculum-based randomization
and augmentation approach to stabilize the RL training process and strengthen
the visual generalization ability. To exhibit the effectiveness of Maniwhere,
we meticulously design 8 tasks encompassing articulate objects, bi-manual, and
dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual
generalization and sim2real transfer abilities across 3 hardware platforms. Our
experiments show that Maniwhere significantly outperforms existing
state-of-the-art methods. Videos are provided at
https://gemcollector.github.io/maniwhere/.