Leren om overal te manipuleren: Een visueel generaliseerbaar raamwerk voor reinforcement learning
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning
July 22, 2024
Auteurs: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI
Samenvatting
Kunnen we visuomotorische robots uitrusten met generalisatievermogen om te functioneren in diverse open-wereldscenario's? In dit artikel stellen we Maniwhere voor, een generaliseerbaar raamwerk ontworpen voor visuele reinforcement learning, dat getrainde robotbeleidsregels in staat stelt te generaliseren over een combinatie van meerdere soorten visuele verstoringen. Specifiek introduceren we een multi-view representatieleerbenadering gecombineerd met een Spatial Transformer Network (STN)-module om gedeelde semantische informatie en correspondenties tussen verschillende gezichtspunten vast te leggen. Daarnaast gebruiken we een curriculumgebaseerde randomisatie- en augmentatiebenadering om het RL-trainingsproces te stabiliseren en het visuele generalisatievermogen te versterken. Om de effectiviteit van Maniwhere aan te tonen, hebben we zorgvuldig 8 taken ontworpen die articulerende objecten, bi-manuele en behendige handmanipulatietaken omvatten, waarbij Maniwhere's sterke visuele generalisatie en sim2real-transfervermogen over 3 hardwareplatforms wordt gedemonstreerd. Onze experimenten tonen aan dat Maniwhere aanzienlijk beter presteert dan bestaande state-of-the-art methoden. Video's zijn beschikbaar op https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in
diverse open-world scenarios? In this paper, we propose Maniwhere, a
generalizable framework tailored for visual reinforcement learning, enabling
the trained robot policies to generalize across a combination of multiple
visual disturbance types. Specifically, we introduce a multi-view
representation learning approach fused with Spatial Transformer Network (STN)
module to capture shared semantic information and correspondences among
different viewpoints. In addition, we employ a curriculum-based randomization
and augmentation approach to stabilize the RL training process and strengthen
the visual generalization ability. To exhibit the effectiveness of Maniwhere,
we meticulously design 8 tasks encompassing articulate objects, bi-manual, and
dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual
generalization and sim2real transfer abilities across 3 hardware platforms. Our
experiments show that Maniwhere significantly outperforms existing
state-of-the-art methods. Videos are provided at
https://gemcollector.github.io/maniwhere/.