ChatPaper.aiChatPaper

Imparare a Manipolare Ovunque: Un Framework Visivo Generalizzabile per l'Apprendimento per Rinforzo

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

July 22, 2024
Autori: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI

Abstract

Possiamo dotare i robot visuomotori di capacità di generalizzazione per operare in scenari aperti e diversificati? In questo articolo, proponiamo Maniwhere, un framework generalizzabile progettato per l'apprendimento per rinforzo visivo, che consente alle politiche del robot addestrate di generalizzare attraverso una combinazione di diversi tipi di disturbi visivi. Nello specifico, introduciamo un approccio di apprendimento della rappresentazione multi-vista fuso con il modulo Spatial Transformer Network (STN) per catturare informazioni semantiche condivise e corrispondenze tra diversi punti di vista. Inoltre, utilizziamo un approccio di randomizzazione e aumento basato su curriculum per stabilizzare il processo di addestramento RL e rafforzare la capacità di generalizzazione visiva. Per dimostrare l'efficacia di Maniwhere, progettiamo meticolosamente 8 task che comprendono oggetti articolati, manipolazione bi-manuale e compiti di manipolazione con mano destra, dimostrando le forti capacità di generalizzazione visiva e di trasferimento sim2real di Maniwhere su 3 piattaforme hardware. I nostri esperimenti mostrano che Maniwhere supera significativamente i metodi state-of-the-art esistenti. I video sono disponibili all'indirizzo https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose Maniwhere, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/.
PDF142November 28, 2024