Ag2Manip: Apprendimento di Nuove Abilità di Manipolazione con Rappresentazioni Visive e Azionali Agnostiche all'Agente
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
April 26, 2024
Autori: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang
cs.AI
Abstract
I sistemi robotici autonomi in grado di apprendere nuove attività di manipolazione sono destinati a trasformare settori che vanno dalla manifattura all'automazione dei servizi. Tuttavia, i metodi moderni (ad esempio, VIP e R3M) devono ancora affrontare ostacoli significativi, in particolare il divario di dominio tra le diverse incarnazioni robotiche e la scarsità di esecuzioni riuscite di compiti all'interno di specifici spazi d'azione, che portano a rappresentazioni dei compiti disallineate e ambigue. Introduciamo Ag2Manip (Rappresentazioni Agent-Agnostic per la Manipolazione), un framework progettato per superare queste sfide attraverso due innovazioni chiave: una nuova rappresentazione visiva agent-agnostic derivata da video di manipolazione umana, in cui i dettagli delle incarnazioni sono oscurati per migliorare la generalizzabilità; e una rappresentazione d'azione agent-agnostic che astrae la cinematica di un robot in un proxy universale, enfatizzando le interazioni cruciali tra l'end-effector e l'oggetto. La validazione empirica di Ag2Manip su benchmark simulati come FrankaKitchen, ManiSkill e PartManip mostra un aumento del 325% nelle prestazioni, ottenuto senza dimostrazioni specifiche per dominio. Studi di ablazione sottolineano il contributo essenziale delle rappresentazioni visive e d'azione a questo successo. Estendendo le nostre valutazioni al mondo reale, Ag2Manip migliora significativamente i tassi di successo dell'apprendimento per imitazione dal 50% al 77,5%, dimostrando la sua efficacia e generalizzabilità sia in ambienti simulati che fisici.
English
Autonomous robotic systems capable of learning novel manipulation tasks are
poised to transform industries from manufacturing to service automation.
However, modern methods (e.g., VIP and R3M) still face significant hurdles,
notably the domain gap among robotic embodiments and the sparsity of successful
task executions within specific action spaces, resulting in misaligned and
ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic
representations for Manipulation), a framework aimed at surmounting these
challenges through two key innovations: a novel agent-agnostic visual
representation derived from human manipulation videos, with the specifics of
embodiments obscured to enhance generalizability; and an agent-agnostic action
representation abstracting a robot's kinematics to a universal agent proxy,
emphasizing crucial interactions between end-effector and object. Ag2Manip's
empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill,
and PartManip shows a 325% increase in performance, achieved without
domain-specific demonstrations. Ablation studies underline the essential
contributions of the visual and action representations to this success.
Extending our evaluations to the real world, Ag2Manip significantly improves
imitation learning success rates from 50% to 77.5%, demonstrating its
effectiveness and generalizability across both simulated and physical
environments.