Ag2Manip: Erlernen neuer Manipulationsfähigkeiten mit agentenunabhängigen visuellen und Aktionsrepräsentationen.
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
April 26, 2024
Autoren: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang
cs.AI
Zusammenfassung
Autonome robotische Systeme, die in der Lage sind, neue Manipulationsaufgaben zu erlernen, stehen kurz davor, Branchen von der Fertigung bis zur Serviceautomatisierung zu transformieren. Allerdings sehen sich moderne Methoden (z.B. VIP und R3M) nach wie vor erheblichen Hürden gegenüber, insbesondere der Domänenunterschied zwischen den robotischen Verkörperungen und der Seltenheit erfolgreicher Aufgabenausführungen innerhalb spezifischer Aktionsräume, was zu nicht übereinstimmenden und mehrdeutigen Aufgabenrepräsentationen führt. Wir stellen Ag2Manip (Agenten-agnostische Repräsentationen für Manipulation) vor, ein Framework, das darauf abzielt, diese Herausforderungen durch zwei Schlüsselinnovationen zu überwinden: eine neuartige agenten-agnostische visuelle Repräsentation, die aus menschlichen Manipulationsvideos abgeleitet ist, wobei die Details der Verkörperungen verdeckt sind, um die Verallgemeinerbarkeit zu verbessern; und eine agenten-agnostische Aktionsrepräsentation, die die Kinematik eines Roboters zu einem universellen Agentenproxy abstrahiert und die wesentlichen Interaktionen zwischen Endeffektor und Objekt hervorhebt. Die empirische Validierung von Ag2Manip über simulierte Benchmarks wie FrankaKitchen, ManiSkill und PartManip zeigt eine Leistungssteigerung um 325 %, die ohne domänenspezifische Demonstrationen erreicht wurde. Ablationsstudien unterstreichen die wesentlichen Beiträge der visuellen und Aktionsrepräsentationen zu diesem Erfolg. Durch die Erweiterung unserer Bewertungen auf die reale Welt verbessert Ag2Manip die Erfolgsraten des Imitationslernens signifikant von 50 % auf 77,5 % und zeigt damit seine Wirksamkeit und Verallgemeinerbarkeit in simulierten und physischen Umgebungen.
English
Autonomous robotic systems capable of learning novel manipulation tasks are
poised to transform industries from manufacturing to service automation.
However, modern methods (e.g., VIP and R3M) still face significant hurdles,
notably the domain gap among robotic embodiments and the sparsity of successful
task executions within specific action spaces, resulting in misaligned and
ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic
representations for Manipulation), a framework aimed at surmounting these
challenges through two key innovations: a novel agent-agnostic visual
representation derived from human manipulation videos, with the specifics of
embodiments obscured to enhance generalizability; and an agent-agnostic action
representation abstracting a robot's kinematics to a universal agent proxy,
emphasizing crucial interactions between end-effector and object. Ag2Manip's
empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill,
and PartManip shows a 325% increase in performance, achieved without
domain-specific demonstrations. Ablation studies underline the essential
contributions of the visual and action representations to this success.
Extending our evaluations to the real world, Ag2Manip significantly improves
imitation learning success rates from 50% to 77.5%, demonstrating its
effectiveness and generalizability across both simulated and physical
environments.Summary
AI-Generated Summary