ChatPaper.aiChatPaper

Ag2Manip: 에이전트-불특정 시각 및 행동 표현을 통한 새로운 조작 기술 학습

Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

April 26, 2024
저자: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang
cs.AI

초록

새로운 조작 작업을 학습할 수 있는 자율 로봇 시스템은 제조업부터 서비스 자동화에 이르기까지 다양한 산업을 혁신할 잠재력을 가지고 있습니다. 그러나 VIP 및 R3M과 같은 현대적인 방법론은 여전히 상당한 어려움에 직면해 있습니다. 특히 로봇 구현체 간의 도메인 격차와 특정 동작 공간 내에서 성공적인 작업 실행의 희소성으로 인해 작업 표현이 잘못 정렬되거나 모호해지는 문제가 발생합니다. 우리는 이러한 문제를 극복하기 위해 Ag2Manip(Agent-Agnostic Representations for Manipulation) 프레임워크를 제안합니다. 이 프레임워크는 두 가지 주요 혁신을 통해 이러한 과제를 해결합니다: 첫째, 인간의 조작 비디오에서 도출된 새로운 에이전트-불특정(agent-agnostic) 시각적 표현으로, 구현체의 세부 사항을 흐리게 하여 일반화를 강화합니다. 둘째, 로봇의 운동학을 보편적인 에이전트 프록시로 추상화한 에이전트-불특정 동작 표현으로, 엔드 이펙터와 객체 간의 중요한 상호작용을 강조합니다. Ag2Manip은 FrankaKitchen, ManiSkill, PartManip과 같은 시뮬레이션 벤치마크에서 도메인 특화 데모 없이도 성능이 325% 향상되었음을 실험적으로 입증했습니다. 또한, 시각적 표현과 동작 표현이 이러한 성공에 필수적인 기여를 했다는 것을 보여주는 절제 연구(ablation study)를 수행했습니다. 실제 환경에서의 평가로 확장하여, Ag2Manip은 모방 학습의 성공률을 50%에서 77.5%로 크게 향상시켰으며, 시뮬레이션과 물리적 환경 모두에서의 효과성과 일반화 능력을 입증했습니다.
English
Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.

Summary

AI-Generated Summary

PDF131December 15, 2024