ChatPaper.aiChatPaper

Ag2Manip : Apprentissage de nouvelles compétences de manipulation grâce à des représentations visuelles et d'action agnostiques à l'agent

Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

April 26, 2024
Auteurs: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang
cs.AI

Résumé

Les systèmes robotiques autonomes capables d'apprendre de nouvelles tâches de manipulation sont en passe de transformer des secteurs allant de la fabrication à l'automatisation des services. Cependant, les méthodes modernes (par exemple, VIP et R3M) rencontrent encore des obstacles significatifs, notamment l'écart de domaine entre les différentes incarnations robotiques et la rareté des exécutions réussies de tâches dans des espaces d'action spécifiques, ce qui entraîne des représentations de tâches mal alignées et ambiguës. Nous présentons Ag2Manip (Représentations Agent-Agnostiques pour la Manipulation), un cadre visant à surmonter ces défis grâce à deux innovations clés : une nouvelle représentation visuelle agent-agnostique dérivée de vidéos de manipulation humaine, où les spécificités des incarnations sont masquées pour améliorer la généralisation ; et une représentation d'action agent-agnostique qui abstrait la cinématique d'un robot en un proxy universel, mettant l'accent sur les interactions cruciales entre l'effecteur terminal et l'objet. La validation empirique d'Ag2Manip sur des benchmarks simulés comme FrankaKitchen, ManiSkill et PartManip montre une augmentation de 325 % des performances, obtenue sans démonstrations spécifiques au domaine. Les études d'ablation soulignent les contributions essentielles des représentations visuelles et d'action à ce succès. En étendant nos évaluations au monde réel, Ag2Manip améliore significativement les taux de réussite de l'apprentissage par imitation de 50 % à 77,5 %, démontrant son efficacité et sa généralisation à la fois dans des environnements simulés et physiques.
English
Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.

Summary

AI-Generated Summary

PDF131December 15, 2024