ChatPaper.aiChatPaper

Aprendizado para Manipulação em Qualquer Lugar: Um Framework Visual Generalizável para Aprendizado por Reforço

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

July 22, 2024
Autores: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI

Resumo

Podemos dotar os robôs visuomotores com capacidades de generalização para operar em diversos cenários de mundo aberto? Neste artigo, propomos o Maniwhere, um framework generalizável adaptado para aprendizado por reforço visual, permitindo que as políticas de robô treinadas generalizem através de uma combinação de múltiplos tipos de distúrbios visuais. Especificamente, introduzimos uma abordagem de aprendizado de representação multi-visão fundida com o módulo Rede Transformadora Espacial (STN) para capturar informações semânticas compartilhadas e correspondências entre diferentes pontos de vista. Além disso, empregamos uma abordagem de randomização e aumento baseada em currículo para estabilizar o processo de treinamento de RL e fortalecer a capacidade de generalização visual. Para demonstrar a eficácia do Maniwhere, projetamos meticulosamente 8 tarefas abrangendo objetos articulados, tarefas bimanuais e de manipulação manual habilidosa, demonstrando as fortes capacidades de generalização visual e transferência sim2real do Maniwhere em 3 plataformas de hardware. Nossos experimentos mostram que o Maniwhere supera significativamente os métodos de ponta existentes. Vídeos estão disponíveis em https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose Maniwhere, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/.
PDF142November 28, 2024