Ag2Manip: Aprendizaje de nuevas habilidades de manipulación con representaciones visuales y de acción agnósticas al agente
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
April 26, 2024
Autores: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang
cs.AI
Resumen
Los sistemas robóticos autónomos capaces de aprender nuevas tareas de manipulación están preparados para transformar industrias, desde la manufactura hasta la automatización de servicios. Sin embargo, los métodos modernos (por ejemplo, VIP y R3M) aún enfrentan obstáculos significativos, destacándose la brecha de dominio entre las diferentes configuraciones robóticas y la escasez de ejecuciones exitosas de tareas dentro de espacios de acción específicos, lo que resulta en representaciones de tareas desalineadas y ambiguas. Presentamos Ag2Manip (Representaciones Agente-Agnósticas para Manipulación), un marco diseñado para superar estos desafíos mediante dos innovaciones clave: una representación visual agente-agnóstica novedosa derivada de videos de manipulación humana, donde los detalles específicos de las configuraciones se ocultan para mejorar la generalización; y una representación de acción agente-agnóstica que abstrae la cinemática de un robot a un proxy de agente universal, enfatizando las interacciones cruciales entre el efector final y el objeto. La validación empírica de Ag2Manip en benchmarks simulados como FrankaKitchen, ManiSkill y PartManip muestra un aumento del 325% en el rendimiento, logrado sin demostraciones específicas del dominio. Los estudios de ablación subrayan las contribuciones esenciales de las representaciones visuales y de acción para este éxito. Al extender nuestras evaluaciones al mundo real, Ag2Manip mejora significativamente las tasas de éxito en el aprendizaje por imitación del 50% al 77.5%, demostrando su efectividad y generalización tanto en entornos simulados como físicos.
English
Autonomous robotic systems capable of learning novel manipulation tasks are
poised to transform industries from manufacturing to service automation.
However, modern methods (e.g., VIP and R3M) still face significant hurdles,
notably the domain gap among robotic embodiments and the sparsity of successful
task executions within specific action spaces, resulting in misaligned and
ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic
representations for Manipulation), a framework aimed at surmounting these
challenges through two key innovations: a novel agent-agnostic visual
representation derived from human manipulation videos, with the specifics of
embodiments obscured to enhance generalizability; and an agent-agnostic action
representation abstracting a robot's kinematics to a universal agent proxy,
emphasizing crucial interactions between end-effector and object. Ag2Manip's
empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill,
and PartManip shows a 325% increase in performance, achieved without
domain-specific demonstrations. Ablation studies underline the essential
contributions of the visual and action representations to this success.
Extending our evaluations to the real world, Ag2Manip significantly improves
imitation learning success rates from 50% to 77.5%, demonstrating its
effectiveness and generalizability across both simulated and physical
environments.Summary
AI-Generated Summary