ChatPaper.aiChatPaper

Ag2Manip: Aprendendo Novas Habilidades de Manipulação com Representações Visuais e de Ação Independentes de Agente

Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

April 26, 2024
Autores: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang
cs.AI

Resumo

Sistemas robóticos autônomos capazes de aprender novas tarefas de manipulação estão prontos para transformar indústrias, desde a manufatura até a automação de serviços. No entanto, métodos modernos (por exemplo, VIP e R3M) ainda enfrentam desafios significativos, notadamente a lacuna de domínio entre diferentes implementações robóticas e a escassez de execuções bem-sucedidas de tarefas dentro de espaços de ação específicos, resultando em representações de tarefas desalinhadas e ambíguas. Apresentamos o Ag2Manip (Representações Agente-Agnósticas para Manipulação), uma estrutura projetada para superar esses desafios por meio de duas inovações principais: uma nova representação visual agente-agnóstica derivada de vídeos de manipulação humana, com os detalhes das implementações obscurecidos para aumentar a generalização; e uma representação de ação agente-agnóstica que abstrai a cinemática de um robô para um proxy universal de agente, enfatizando as interações cruciais entre o efetuador final e o objeto. A validação empírica do Ag2Manip em benchmarks simulados como FrankaKitchen, ManiSkill e PartManip mostra um aumento de 325% no desempenho, alcançado sem demonstrações específicas do domínio. Estudos de ablação destacam as contribuições essenciais das representações visual e de ação para esse sucesso. Estendendo nossas avaliações ao mundo real, o Ag2Manip melhora significativamente as taxas de sucesso de aprendizado por imitação de 50% para 77,5%, demonstrando sua eficácia e generalização tanto em ambientes simulados quanto físicos.
English
Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.
PDF131December 15, 2024