Ag2Manip: Apprendimento di Nuove Abilità di Manipolazione con Rappresentazioni Visive e Azionali Agnostiche all'Agente

Abstract

I sistemi robotici autonomi in grado di apprendere nuove attività di manipolazione sono destinati a trasformare settori che vanno dalla manifattura all'automazione dei servizi. Tuttavia, i metodi moderni (ad esempio, VIP e R3M) devono ancora affrontare ostacoli significativi, in particolare il divario di dominio tra le diverse incarnazioni robotiche e la scarsità di esecuzioni riuscite di compiti all'interno di specifici spazi d'azione, che portano a rappresentazioni dei compiti disallineate e ambigue. Introduciamo Ag2Manip (Rappresentazioni Agent-Agnostic per la Manipolazione), un framework progettato per superare queste sfide attraverso due innovazioni chiave: una nuova rappresentazione visiva agent-agnostic derivata da video di manipolazione umana, in cui i dettagli delle incarnazioni sono oscurati per migliorare la generalizzabilità; e una rappresentazione d'azione agent-agnostic che astrae la cinematica di un robot in un proxy universale, enfatizzando le interazioni cruciali tra l'end-effector e l'oggetto. La validazione empirica di Ag2Manip su benchmark simulati come FrankaKitchen, ManiSkill e PartManip mostra un aumento del 325% nelle prestazioni, ottenuto senza dimostrazioni specifiche per dominio. Studi di ablazione sottolineano il contributo essenziale delle rappresentazioni visive e d'azione a questo successo. Estendendo le nostre valutazioni al mondo reale, Ag2Manip migliora significativamente i tassi di successo dell'apprendimento per imitazione dal 50% al 77,5%, dimostrando la sua efficacia e generalizzabilità sia in ambienti simulati che fisici.

English

Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.

Ag2Manip: Apprendimento di Nuove Abilità di Manipolazione con Rappresentazioni Visive e Azionali Agnostiche all'Agente

Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

Abstract

Support