로봇에게 손길을 내밀기: 손에 카메라를 든 인간의 비디오 시연을 통한 일반화 가능한 조작 학습
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations
July 12, 2023
저자: Moo Jin Kim, Jiajun Wu, Chelsea Finn
cs.AI
초록
손에 장착된 카메라(eye-in-hand camera)는 시각 기반 로봇 조작에서 더 높은 샘플 효율성과 일반화 능력을 가능하게 하는 데 유망한 가능성을 보여주고 있다. 그러나 로봇 모방 학습의 경우, 인간 원격 조작자가 실제 로봇을 사용하여 대량의 전문가 시연 데이터를 수집하는 것은 여전히 비용이 많이 든다. 반면, 인간이 작업을 수행하는 비디오는 로봇 원격 조작에 대한 전문 지식이 필요하지 않으며 다양한 시나리오에서 빠르게 캡처할 수 있기 때문에 훨씬 저렴하게 수집할 수 있다. 따라서 인간 비디오 시연은 대규모로 일반화 가능한 로봇 조작 정책을 학습하기 위한 유망한 데이터 소스이다. 본 연구에서는 좁은 범위의 로봇 모방 데이터셋을 넓은 범위의 레이블이 없는 인간 비디오 시연으로 보강하여 손에 장착된 시각-운동 정책의 일반화 능력을 크게 향상시킨다. 인간과 로봇 데이터 사이에는 명확한 시각적 도메인 차이가 존재하지만, 우리의 프레임워크는 손에 장착된 카메라의 부분적 관측 가능성과 간단한 고정 이미지 마스킹 기법을 활용하기 때문에 명시적인 도메인 적응 방법을 사용할 필요가 없다. 3자유도 및 6자유도 로봇 암 제어를 포함한 8가지 실제 작업에 대한 실험에서, 우리의 방법은 손에 장착된 조작 정책의 성공률을 평균 58%(절대값) 향상시켰으며, 로봇이 로봇 시연 데이터에서 보지 못한 새로운 환경 구성과 새로운 작업에 일반화할 수 있도록 했다. 비디오 결과는 https://giving-robots-a-hand.github.io/에서 확인할 수 있다.
English
Eye-in-hand cameras have shown promise in enabling greater sample efficiency
and generalization in vision-based robotic manipulation. However, for robotic
imitation, it is still expensive to have a human teleoperator collect large
amounts of expert demonstrations with a real robot. Videos of humans performing
tasks, on the other hand, are much cheaper to collect since they eliminate the
need for expertise in robotic teleoperation and can be quickly captured in a
wide range of scenarios. Therefore, human video demonstrations are a promising
data source for learning generalizable robotic manipulation policies at scale.
In this work, we augment narrow robotic imitation datasets with broad unlabeled
human video demonstrations to greatly enhance the generalization of eye-in-hand
visuomotor policies. Although a clear visual domain gap exists between human
and robot data, our framework does not need to employ any explicit domain
adaptation method, as we leverage the partial observability of eye-in-hand
cameras as well as a simple fixed image masking scheme. On a suite of eight
real-world tasks involving both 3-DoF and 6-DoF robot arm control, our method
improves the success rates of eye-in-hand manipulation policies by 58%
(absolute) on average, enabling robots to generalize to both new environment
configurations and new tasks that are unseen in the robot demonstration data.
See video results at https://giving-robots-a-hand.github.io/ .