Lernen, überall zu manipulieren: Ein visuell generalisierbares Framework für Reinforcement Learning
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning
July 22, 2024
Autoren: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI
Zusammenfassung
Können wir visuomotorische Roboter mit Generalisierungsfähigkeiten ausstatten, um in verschiedenen Open-World-Szenarien zu agieren? In diesem Paper schlagen wir Maniwhere vor, ein generalisierbares Framework, das für visuelles Verstärkungslernen maßgeschneidert ist und es den trainierten Roboter-Richtlinien ermöglicht, über eine Kombination mehrerer visueller Störungstypen hinweg zu generalisieren. Konkret führen wir einen Multi-View-Repräsentationslernansatz ein, der mit einem Spatial Transformer Network (STN)-Modul verschmolzen ist, um gemeinsame semantische Informationen und Entsprechungen zwischen verschiedenen Blickwinkeln zu erfassen. Darüber hinaus verwenden wir einen auf Lehrplänen basierenden Randomisierungs- und Augmentierungsansatz, um den RL-Trainingsprozess zu stabilisieren und die visuelle Generalisierungsfähigkeit zu stärken. Um die Wirksamkeit von Maniwhere zu zeigen, entwerfen wir sorgfältig 8 Aufgaben, die präzise Objekte, bi-manuelle und geschickte Handhabungsaufgaben umfassen, und zeigen die starke visuelle Generalisierung und Sim2Real-Transferfähigkeiten von Maniwhere über 3 Hardwareplattformen hinweg. Unsere Experimente zeigen, dass Maniwhere signifikant besser abschneidet als bestehende State-of-the-Art-Methoden. Videos sind verfügbar unter https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in
diverse open-world scenarios? In this paper, we propose Maniwhere, a
generalizable framework tailored for visual reinforcement learning, enabling
the trained robot policies to generalize across a combination of multiple
visual disturbance types. Specifically, we introduce a multi-view
representation learning approach fused with Spatial Transformer Network (STN)
module to capture shared semantic information and correspondences among
different viewpoints. In addition, we employ a curriculum-based randomization
and augmentation approach to stabilize the RL training process and strengthen
the visual generalization ability. To exhibit the effectiveness of Maniwhere,
we meticulously design 8 tasks encompassing articulate objects, bi-manual, and
dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual
generalization and sim2real transfer abilities across 3 hardware platforms. Our
experiments show that Maniwhere significantly outperforms existing
state-of-the-art methods. Videos are provided at
https://gemcollector.github.io/maniwhere/.Summary
AI-Generated Summary