ChatPaper.aiChatPaper

Leren om overal te manipuleren: Een visueel generaliseerbaar raamwerk voor reinforcement learning

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

July 22, 2024
Auteurs: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI

Samenvatting

Kunnen we visuomotorische robots uitrusten met generalisatievermogen om te functioneren in diverse open-wereldscenario's? In dit artikel stellen we Maniwhere voor, een generaliseerbaar raamwerk ontworpen voor visuele reinforcement learning, dat getrainde robotbeleidsregels in staat stelt te generaliseren over een combinatie van meerdere soorten visuele verstoringen. Specifiek introduceren we een multi-view representatieleerbenadering gecombineerd met een Spatial Transformer Network (STN)-module om gedeelde semantische informatie en correspondenties tussen verschillende gezichtspunten vast te leggen. Daarnaast gebruiken we een curriculumgebaseerde randomisatie- en augmentatiebenadering om het RL-trainingsproces te stabiliseren en het visuele generalisatievermogen te versterken. Om de effectiviteit van Maniwhere aan te tonen, hebben we zorgvuldig 8 taken ontworpen die articulerende objecten, bi-manuele en behendige handmanipulatietaken omvatten, waarbij Maniwhere's sterke visuele generalisatie en sim2real-transfervermogen over 3 hardwareplatforms wordt gedemonstreerd. Onze experimenten tonen aan dat Maniwhere aanzienlijk beter presteert dan bestaande state-of-the-art methoden. Video's zijn beschikbaar op https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose Maniwhere, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/.
PDF142November 28, 2024