Aprendiendo a Manipular en Cualquier Lugar: Un Marco Visual Generalizable para el Aprendizaje por Refuerzo
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning
July 22, 2024
Autores: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI
Resumen
¿Podemos dotar a los robots visuomotores de capacidades de generalización para operar en diversos escenarios de mundo abierto? En este documento, proponemos Maniwhere, un marco generalizable diseñado para el aprendizaje por refuerzo visual, que permite que las políticas de los robots entrenados se generalicen a través de una combinación de múltiples tipos de perturbaciones visuales. Específicamente, introducimos un enfoque de aprendizaje de representación de múltiples vistas fusionado con un módulo de Red Transformadora Espacial (STN) para capturar información semántica compartida y correspondencias entre diferentes puntos de vista. Además, empleamos un enfoque de randomización y aumento basado en currículum para estabilizar el proceso de entrenamiento de RL y fortalecer la capacidad de generalización visual. Para demostrar la efectividad de Maniwhere, diseñamos meticulosamente 8 tareas que abarcan objetos articulados, tareas de manipulación bimanual y manual diestro, demostrando las sólidas capacidades de generalización visual y transferencia sim2real de Maniwhere en 3 plataformas de hardware. Nuestros experimentos muestran que Maniwhere supera significativamente a los métodos de vanguardia existentes. Se proporcionan videos en https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in
diverse open-world scenarios? In this paper, we propose Maniwhere, a
generalizable framework tailored for visual reinforcement learning, enabling
the trained robot policies to generalize across a combination of multiple
visual disturbance types. Specifically, we introduce a multi-view
representation learning approach fused with Spatial Transformer Network (STN)
module to capture shared semantic information and correspondences among
different viewpoints. In addition, we employ a curriculum-based randomization
and augmentation approach to stabilize the RL training process and strengthen
the visual generalization ability. To exhibit the effectiveness of Maniwhere,
we meticulously design 8 tasks encompassing articulate objects, bi-manual, and
dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual
generalization and sim2real transfer abilities across 3 hardware platforms. Our
experiments show that Maniwhere significantly outperforms existing
state-of-the-art methods. Videos are provided at
https://gemcollector.github.io/maniwhere/.Summary
AI-Generated Summary