ChatPaper.aiChatPaper

Apprendre à manipuler partout : un cadre visuel généralisable pour l'apprentissage par renforcement

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

July 22, 2024
Auteurs: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI

Résumé

Pouvons-nous doter les robots visuomoteurs de capacités de généralisation pour opérer dans divers scénarios du monde réel ? Dans cet article, nous proposons Maniwhere, un cadre généralisable conçu pour l'apprentissage par renforcement visuel, permettant aux politiques de robot entraînées de généraliser à travers une combinaison de multiples types de perturbations visuelles. Plus précisément, nous introduisons une approche d'apprentissage de représentation multi-vues fusionnée avec un module de réseau de transformateur spatial (STN) pour capturer les informations sémantiques partagées et les correspondances entre différents points de vue. De plus, nous utilisons une approche de randomisation et d'augmentation basée sur un curriculum pour stabiliser le processus d'entraînement par renforcement et renforcer la capacité de généralisation visuelle. Pour démontrer l'efficacité de Maniwhere, nous avons soigneusement conçu 8 tâches englobant des objets articulés, des manipulations bi-manuelles et des tâches de manipulation dextre, montrant les fortes capacités de généralisation visuelle et de transfert sim2real de Maniwhere sur 3 plateformes matérielles. Nos expériences montrent que Maniwhere surpasse significativement les méthodes existantes de pointe. Les vidéos sont disponibles à l'adresse https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose Maniwhere, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/.
PDF142November 28, 2024