전신 MPC와 블랙박스 정책 학습을 통한 민첩한 캐치 기술
Agile Catching with Whole-Body MPC and Blackbox Policy Learning
June 14, 2023
저자: Saminda Abeyruwan, Alex Bewley, Nicholas M. Boffi, Krzysztof Choromanski, David D'Ambrosio, Deepali Jain, Pannag Sanketi, Anish Shankar, Vikas Sindhwani, Sumeet Singh, Jean-Jacques Slotine, Stephen Tu
cs.AI
초록
우리는 민첩한 로봇 공학의 벤치마크 과제인 고속으로 던져진 물체 잡기에 대해 다룹니다. 이는 물체의 시각적 관측과 로봇의 자체 감각 상태만을 이용하여, 불과 몇 분의 1초 안에 물체를 추적, 가로채고 받아내는 도전적인 과제입니다. 우리는 두 가지 근본적으로 다른 해결 전략의 상대적 장점을 제시합니다: (i) 가속화된 제약 조건 하의 궤적 최적화를 사용한 모델 예측 제어, 그리고 (ii) 영차 최적화를 사용한 강화 학습. 우리는 샘플 효율성, 시뮬레이션-실제 전이, 분포 변화에 대한 견고성, 그리고 전체 몸체 다중 모드성과 같은 다양한 성능 상충 관계에 대한 통찰을 하드웨어 실험을 통해 제공합니다. 마지막으로, 민첩한 로봇 제어를 위해 "고전적" 기법과 "학습 기반" 기법을 융합하는 방안을 제안합니다. 우리의 실험 영상은 https://sites.google.com/view/agile-catching에서 확인할 수 있습니다.
English
We address a benchmark task in agile robotics: catching objects thrown at
high-speed. This is a challenging task that involves tracking, intercepting,
and cradling a thrown object with access only to visual observations of the
object and the proprioceptive state of the robot, all within a fraction of a
second. We present the relative merits of two fundamentally different solution
strategies: (i) Model Predictive Control using accelerated constrained
trajectory optimization, and (ii) Reinforcement Learning using zeroth-order
optimization. We provide insights into various performance trade-offs including
sample efficiency, sim-to-real transfer, robustness to distribution shifts, and
whole-body multimodality via extensive on-hardware experiments. We conclude
with proposals on fusing "classical" and "learning-based" techniques for agile
robot control. Videos of our experiments may be found at
https://sites.google.com/view/agile-catching