Aprendizado para Manipulação em Qualquer Lugar: Um Framework Visual Generalizável para Aprendizado por Reforço
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning
July 22, 2024
Autores: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI
Resumo
Podemos dotar os robôs visuomotores com capacidades de generalização para operar em diversos cenários de mundo aberto? Neste artigo, propomos o Maniwhere, um framework generalizável adaptado para aprendizado por reforço visual, permitindo que as políticas de robô treinadas generalizem através de uma combinação de múltiplos tipos de distúrbios visuais. Especificamente, introduzimos uma abordagem de aprendizado de representação multi-visão fundida com o módulo Rede Transformadora Espacial (STN) para capturar informações semânticas compartilhadas e correspondências entre diferentes pontos de vista. Além disso, empregamos uma abordagem de randomização e aumento baseada em currículo para estabilizar o processo de treinamento de RL e fortalecer a capacidade de generalização visual. Para demonstrar a eficácia do Maniwhere, projetamos meticulosamente 8 tarefas abrangendo objetos articulados, tarefas bimanuais e de manipulação manual habilidosa, demonstrando as fortes capacidades de generalização visual e transferência sim2real do Maniwhere em 3 plataformas de hardware. Nossos experimentos mostram que o Maniwhere supera significativamente os métodos de ponta existentes. Vídeos estão disponíveis em https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in
diverse open-world scenarios? In this paper, we propose Maniwhere, a
generalizable framework tailored for visual reinforcement learning, enabling
the trained robot policies to generalize across a combination of multiple
visual disturbance types. Specifically, we introduce a multi-view
representation learning approach fused with Spatial Transformer Network (STN)
module to capture shared semantic information and correspondences among
different viewpoints. In addition, we employ a curriculum-based randomization
and augmentation approach to stabilize the RL training process and strengthen
the visual generalization ability. To exhibit the effectiveness of Maniwhere,
we meticulously design 8 tasks encompassing articulate objects, bi-manual, and
dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual
generalization and sim2real transfer abilities across 3 hardware platforms. Our
experiments show that Maniwhere significantly outperforms existing
state-of-the-art methods. Videos are provided at
https://gemcollector.github.io/maniwhere/.