Vid2Robot: 크로스-어텐션 트랜스포머를 활용한 비디오 조건화 정책 학습의 종단간 접근법
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
March 19, 2024
저자: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI
초록
대규모 로봇 시스템은 일반적으로 작업을 위해 텍스트 기반 지침에 의존하지만, 본 연구는 다른 접근 방식을 탐구합니다: 로봇이 인간의 행동을 관찰하여 작업을 직접 추론할 수 있을까요? 이러한 전환은 로봇이 인간의 의도를 해독하고 이를 물리적 제약과 환경 내에서 실행 가능한 동작으로 변환할 수 있는 능력을 필요로 합니다. 우리는 Vid2Robot라는 새로운 종단 간(end-to-end) 비디오 기반 학습 프레임워크를 소개합니다. 조작 작업의 비디오 데모와 현재 시각적 관찰을 입력으로 받아 Vid2Robot는 직접 로봇 동작을 생성합니다. 이는 인간 비디오와 로봇 궤적의 대규모 데이터셋으로 훈련된 통합 표현 모델을 통해 달성됩니다. 이 모델은 교차 주의 메커니즘(cross-attention mechanisms)을 활용하여 프롬프트 비디오 특징을 로봇의 현재 상태에 융합하고, 관찰된 작업을 모방한 적절한 동작을 생성합니다. 정책 성능을 더욱 개선하기 위해, 우리는 인간과 로봇 비디오 표현 간의 정렬을 강화하는 보조 대조 손실(auxiliary contrastive losses)을 제안합니다. 우리는 Vid2Robot를 실제 로봇에서 평가하며, 인간 데모 비디오를 사용할 때 다른 비디오 조건 정책(video-conditioned policies) 대비 20%의 성능 향상을 보여줍니다. 또한, 우리의 모델은 관찰된 동작을 한 객체에서 다른 객체로 성공적으로 전이하거나, 장기적 구성(long-horizon composition)과 같은 새로운 능력을 보여주어 실제 응용 가능성을 입증합니다. 프로젝트 웹사이트: vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for
tasks, this work explores a different approach: can robots infer the task
directly from observing humans? This shift necessitates the robot's ability to
decode human intent and translate it into executable actions within its
physical constraints and environment. We introduce Vid2Robot, a novel
end-to-end video-based learning framework for robots. Given a video
demonstration of a manipulation task and current visual observations, Vid2Robot
directly produces robot actions. This is achieved through a unified
representation model trained on a large dataset of human video and robot
trajectory. The model leverages cross-attention mechanisms to fuse prompt video
features to the robot's current state and generate appropriate actions that
mimic the observed task. To further improve policy performance, we propose
auxiliary contrastive losses that enhance the alignment between human and robot
video representations. We evaluate Vid2Robot on real-world robots,
demonstrating a 20% improvement in performance compared to other
video-conditioned policies when using human demonstration videos. Additionally,
our model exhibits emergent capabilities, such as successfully transferring
observed motions from one object to another, and long-horizon composition, thus
showcasing its potential for real-world applications. Project website:
vid2robot.github.ioSummary
AI-Generated Summary