Ag2Manip: Обучение новым навыкам манипуляции с визуальными и действенными представлениями, независимыми от агента
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
April 26, 2024
Авторы: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang
cs.AI
Аннотация
Автономные роботизированные системы, способные изучать новые задачи по манипулированию, готовы изменить отрасли от производства до автоматизации обслуживания. Однако современные методы (например, VIP и R3M) по-прежнему сталкиваются с серьезными препятствиями, в частности, с разрывом в домене между роботизированными воплощениями и недостаточным количеством успешных выполнений задач в конкретных пространствах действий, что приводит к несогласованным и неоднозначным представлениям задач. Мы представляем Ag2Manip (Представления, независимые от агента для манипуляции), фреймворк, направленный на преодоление этих препятствий благодаря двум ключевым инновациям: новое агент-независимое визуальное представление, происходящее из видеороликов человеческого манипулирования, с деталями воплощений, скрытыми для повышения обобщаемости; и агент-независимое действие, абстрагирующее кинематику робота до универсального агентского прокси, акцентируя важные взаимодействия между конечным эффектором и объектом. Эмпирическая проверка Ag2Manip на симулированных бенчмарках, таких как FrankaKitchen, ManiSkill и PartManip, показывает увеличение производительности на 325%, достигнутое без доменно-специфических демонстраций. Абляционные исследования подчеркивают существенный вклад визуальных и действенных представлений в этот успех. Расширяя наши оценки на реальный мир, Ag2Manip значительно улучшает показатели успешности обучения имитации с 50% до 77.5%, демонстрируя его эффективность и обобщаемость как в симулированных, так и в физических средах.
English
Autonomous robotic systems capable of learning novel manipulation tasks are
poised to transform industries from manufacturing to service automation.
However, modern methods (e.g., VIP and R3M) still face significant hurdles,
notably the domain gap among robotic embodiments and the sparsity of successful
task executions within specific action spaces, resulting in misaligned and
ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic
representations for Manipulation), a framework aimed at surmounting these
challenges through two key innovations: a novel agent-agnostic visual
representation derived from human manipulation videos, with the specifics of
embodiments obscured to enhance generalizability; and an agent-agnostic action
representation abstracting a robot's kinematics to a universal agent proxy,
emphasizing crucial interactions between end-effector and object. Ag2Manip's
empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill,
and PartManip shows a 325% increase in performance, achieved without
domain-specific demonstrations. Ablation studies underline the essential
contributions of the visual and action representations to this success.
Extending our evaluations to the real world, Ag2Manip significantly improves
imitation learning success rates from 50% to 77.5%, demonstrating its
effectiveness and generalizability across both simulated and physical
environments.Summary
AI-Generated Summary