全身MPCとブラックボックス政策学習を用いたアジャイルキャッチング
Agile Catching with Whole-Body MPC and Blackbox Policy Learning
June 14, 2023
著者: Saminda Abeyruwan, Alex Bewley, Nicholas M. Boffi, Krzysztof Choromanski, David D'Ambrosio, Deepali Jain, Pannag Sanketi, Anish Shankar, Vikas Sindhwani, Sumeet Singh, Jean-Jacques Slotine, Stephen Tu
cs.AI
要旨
我々はアジャイルロボティクスにおけるベンチマークタスクとして、高速で投げられた物体をキャッチする課題に取り組む。これは、物体の視覚観測とロボットの自己受容感覚のみを利用し、1秒未満の時間内で物体を追跡、迎撃、受け止めるという挑戦的な課題である。我々は、根本的に異なる2つの解決戦略の相対的なメリットを提示する:(i) 加速された制約付き軌道最適化を用いたモデル予測制御、(ii) ゼロ次最適化を用いた強化学習。サンプル効率、シミュレーションから実機への転移、分布シフトに対するロバスト性、全身のマルチモーダリティなど、様々な性能トレードオフについて、広範な実機実験を通じて洞察を提供する。最後に、アジャイルロボット制御のための「古典的」手法と「学習ベース」手法を融合させる提案を行う。実験の動画はhttps://sites.google.com/view/agile-catchingで閲覧可能である。
English
We address a benchmark task in agile robotics: catching objects thrown at
high-speed. This is a challenging task that involves tracking, intercepting,
and cradling a thrown object with access only to visual observations of the
object and the proprioceptive state of the robot, all within a fraction of a
second. We present the relative merits of two fundamentally different solution
strategies: (i) Model Predictive Control using accelerated constrained
trajectory optimization, and (ii) Reinforcement Learning using zeroth-order
optimization. We provide insights into various performance trade-offs including
sample efficiency, sim-to-real transfer, robustness to distribution shifts, and
whole-body multimodality via extensive on-hardware experiments. We conclude
with proposals on fusing "classical" and "learning-based" techniques for agile
robot control. Videos of our experiments may be found at
https://sites.google.com/view/agile-catching