Aprendiendo a Manipular en Cualquier Lugar: Un Marco Visual Generalizable para el Aprendizaje por Refuerzo

Resumen

¿Podemos dotar a los robots visuomotores de capacidades de generalización para operar en diversos escenarios de mundo abierto? En este documento, proponemos Maniwhere, un marco generalizable diseñado para el aprendizaje por refuerzo visual, que permite que las políticas de los robots entrenados se generalicen a través de una combinación de múltiples tipos de perturbaciones visuales. Específicamente, introducimos un enfoque de aprendizaje de representación de múltiples vistas fusionado con un módulo de Red Transformadora Espacial (STN) para capturar información semántica compartida y correspondencias entre diferentes puntos de vista. Además, empleamos un enfoque de randomización y aumento basado en currículum para estabilizar el proceso de entrenamiento de RL y fortalecer la capacidad de generalización visual. Para demostrar la efectividad de Maniwhere, diseñamos meticulosamente 8 tareas que abarcan objetos articulados, tareas de manipulación bimanual y manual diestro, demostrando las sólidas capacidades de generalización visual y transferencia sim2real de Maniwhere en 3 plataformas de hardware. Nuestros experimentos muestran que Maniwhere supera significativamente a los métodos de vanguardia existentes. Se proporcionan videos en https://gemcollector.github.io/maniwhere/.

English

Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose Maniwhere, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/.

Aprendiendo a Manipular en Cualquier Lugar: Un Marco Visual Generalizable para el Aprendizaje por Refuerzo

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

Resumen

Support