Ag2Manip: Erlernen neuer Manipulationsfähigkeiten mit agentenunabhängigen visuellen und Aktionsrepräsentationen.

papers.abstract

Autonome robotische Systeme, die in der Lage sind, neue Manipulationsaufgaben zu erlernen, stehen kurz davor, Branchen von der Fertigung bis zur Serviceautomatisierung zu transformieren. Allerdings sehen sich moderne Methoden (z.B. VIP und R3M) nach wie vor erheblichen Hürden gegenüber, insbesondere der Domänenunterschied zwischen den robotischen Verkörperungen und der Seltenheit erfolgreicher Aufgabenausführungen innerhalb spezifischer Aktionsräume, was zu nicht übereinstimmenden und mehrdeutigen Aufgabenrepräsentationen führt. Wir stellen Ag2Manip (Agenten-agnostische Repräsentationen für Manipulation) vor, ein Framework, das darauf abzielt, diese Herausforderungen durch zwei Schlüsselinnovationen zu überwinden: eine neuartige agenten-agnostische visuelle Repräsentation, die aus menschlichen Manipulationsvideos abgeleitet ist, wobei die Details der Verkörperungen verdeckt sind, um die Verallgemeinerbarkeit zu verbessern; und eine agenten-agnostische Aktionsrepräsentation, die die Kinematik eines Roboters zu einem universellen Agentenproxy abstrahiert und die wesentlichen Interaktionen zwischen Endeffektor und Objekt hervorhebt. Die empirische Validierung von Ag2Manip über simulierte Benchmarks wie FrankaKitchen, ManiSkill und PartManip zeigt eine Leistungssteigerung um 325 %, die ohne domänenspezifische Demonstrationen erreicht wurde. Ablationsstudien unterstreichen die wesentlichen Beiträge der visuellen und Aktionsrepräsentationen zu diesem Erfolg. Durch die Erweiterung unserer Bewertungen auf die reale Welt verbessert Ag2Manip die Erfolgsraten des Imitationslernens signifikant von 50 % auf 77,5 % und zeigt damit seine Wirksamkeit und Verallgemeinerbarkeit in simulierten und physischen Umgebungen.

English

Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.

Ag2Manip: Erlernen neuer Manipulationsfähigkeiten mit agentenunabhängigen visuellen und Aktionsrepräsentationen.

Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

papers.abstract

Support