「ペン回し」を学ぶことから得られる教訓
Lessons from Learning to Spin "Pens"
July 26, 2024
著者: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI
要旨
ペン状物体の把持操作は、ハンマーやドライバーなど多くの工具が同様の形状をしていることから、日常生活において重要なスキルである。しかし、現在の学習ベースの手法は、高品質なデモンストレーションの不足やシミュレーションと現実世界との大きな隔たりにより、このタスクに苦戦している。本研究では、ペン状物体を回転させる能力を示すことで、学習ベースの把持操作システムの限界を押し広げる。まず、特権情報を用いたオラクルポリシーを強化学習で訓練し、シミュレーション内で高精度な軌道データセットを生成する。これには二つの目的がある:1) シミュレーション内で感覚運動ポリシーを事前訓練すること;2) 現実世界で開ループ軌道再生を行うことである。次に、これらの現実世界の軌道を用いて感覚運動ポリシーを微調整し、現実世界のダイナミクスに適応させる。50未満の軌道で、我々のポリシーは異なる物理特性を持つ10以上のペン状物体を複数回転させることを学習する。設計選択に関する包括的な分析を提示し、開発中に得られた教訓を共有する。
English
In-hand manipulation of pen-like objects is an important skill in our daily
lives, as many tools such as hammers and screwdrivers are similarly shaped.
However, current learning-based methods struggle with this task due to a lack
of high-quality demonstrations and the significant gap between simulation and
the real world. In this work, we push the boundaries of learning-based in-hand
manipulation systems by demonstrating the capability to spin pen-like objects.
We first use reinforcement learning to train an oracle policy with privileged
information and generate a high-fidelity trajectory dataset in simulation. This
serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2)
conducting open-loop trajectory replay in the real world. We then fine-tune the
sensorimotor policy using these real-world trajectories to adapt it to the real
world dynamics. With less than 50 trajectories, our policy learns to rotate
more than ten pen-like objects with different physical properties for multiple
revolutions. We present a comprehensive analysis of our design choices and
share the lessons learned during development.Summary
AI-Generated Summary