Imparare a Manipolare Ovunque: Un Framework Visivo Generalizzabile per l'Apprendimento per Rinforzo
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning
July 22, 2024
Autori: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI
Abstract
Possiamo dotare i robot visuomotori di capacità di generalizzazione per operare in
scenari aperti e diversificati? In questo articolo, proponiamo Maniwhere, un
framework generalizzabile progettato per l'apprendimento per rinforzo visivo, che
consente alle politiche del robot addestrate di generalizzare attraverso una
combinazione di diversi tipi di disturbi visivi. Nello specifico, introduciamo un
approccio di apprendimento della rappresentazione multi-vista fuso con il modulo
Spatial Transformer Network (STN) per catturare informazioni semantiche condivise
e corrispondenze tra diversi punti di vista. Inoltre, utilizziamo un approccio di
randomizzazione e aumento basato su curriculum per stabilizzare il processo di
addestramento RL e rafforzare la capacità di generalizzazione visiva. Per
dimostrare l'efficacia di Maniwhere, progettiamo meticolosamente 8 task che
comprendono oggetti articolati, manipolazione bi-manuale e compiti di manipolazione
con mano destra, dimostrando le forti capacità di generalizzazione visiva e di
trasferimento sim2real di Maniwhere su 3 piattaforme hardware. I nostri esperimenti
mostrano che Maniwhere supera significativamente i metodi state-of-the-art
esistenti. I video sono disponibili all'indirizzo
https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in
diverse open-world scenarios? In this paper, we propose Maniwhere, a
generalizable framework tailored for visual reinforcement learning, enabling
the trained robot policies to generalize across a combination of multiple
visual disturbance types. Specifically, we introduce a multi-view
representation learning approach fused with Spatial Transformer Network (STN)
module to capture shared semantic information and correspondences among
different viewpoints. In addition, we employ a curriculum-based randomization
and augmentation approach to stabilize the RL training process and strengthen
the visual generalization ability. To exhibit the effectiveness of Maniwhere,
we meticulously design 8 tasks encompassing articulate objects, bi-manual, and
dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual
generalization and sim2real transfer abilities across 3 hardware platforms. Our
experiments show that Maniwhere significantly outperforms existing
state-of-the-art methods. Videos are provided at
https://gemcollector.github.io/maniwhere/.