Lernen, überall zu manipulieren: Ein visuell generalisierbares Framework für Reinforcement Learning

Zusammenfassung

Können wir visuomotorische Roboter mit Generalisierungsfähigkeiten ausstatten, um in verschiedenen Open-World-Szenarien zu agieren? In diesem Paper schlagen wir Maniwhere vor, ein generalisierbares Framework, das für visuelles Verstärkungslernen maßgeschneidert ist und es den trainierten Roboter-Richtlinien ermöglicht, über eine Kombination mehrerer visueller Störungstypen hinweg zu generalisieren. Konkret führen wir einen Multi-View-Repräsentationslernansatz ein, der mit einem Spatial Transformer Network (STN)-Modul verschmolzen ist, um gemeinsame semantische Informationen und Entsprechungen zwischen verschiedenen Blickwinkeln zu erfassen. Darüber hinaus verwenden wir einen auf Lehrplänen basierenden Randomisierungs- und Augmentierungsansatz, um den RL-Trainingsprozess zu stabilisieren und die visuelle Generalisierungsfähigkeit zu stärken. Um die Wirksamkeit von Maniwhere zu zeigen, entwerfen wir sorgfältig 8 Aufgaben, die präzise Objekte, bi-manuelle und geschickte Handhabungsaufgaben umfassen, und zeigen die starke visuelle Generalisierung und Sim2Real-Transferfähigkeiten von Maniwhere über 3 Hardwareplattformen hinweg. Unsere Experimente zeigen, dass Maniwhere signifikant besser abschneidet als bestehende State-of-the-Art-Methoden. Videos sind verfügbar unter https://gemcollector.github.io/maniwhere/.

English

Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose Maniwhere, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/.

Lernen, überall zu manipulieren: Ein visuell generalisierbares Framework für Reinforcement Learning

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

Zusammenfassung

Support