DexUMI: 人間の手をユニバーサル操作インターフェースとして活用した器用な操作の実現
DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation
May 28, 2025
著者: Mengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song
cs.AI
要旨
我々はDexUMIを提案する。これは、人間の手を自然なインターフェースとして利用し、器用な操作スキルを様々なロボットハンドに転送するデータ収集とポリシー学習のフレームワークである。DexUMIは、人間の手と様々なロボットハンド間のエンボディメントギャップを最小化するためのハードウェアおよびソフトウェアの適応を含む。ハードウェア適応では、ウェアラブルなハンドエクソスケルトンを使用してキネマティクスのギャップを橋渡しする。これにより、操作データ収集における直接的な触覚フィードバックを可能にし、人間の動きを実現可能なロボットハンドの動きに適応させる。ソフトウェア適応では、ビデオデータ内の人間の手を高精細なロボットハンドのインペインティングで置き換えることで、視覚的なギャップを橋渡しする。我々は、2つの異なる器用なロボットハンドハードウェアプラットフォームでの包括的な実世界実験を通じてDexUMIの能力を実証し、平均タスク成功率86%を達成した。
English
We present DexUMI - a data collection and policy learning framework that uses
the human hand as the natural interface to transfer dexterous manipulation
skills to various robot hands. DexUMI includes hardware and software
adaptations to minimize the embodiment gap between the human hand and various
robot hands. The hardware adaptation bridges the kinematics gap using a
wearable hand exoskeleton. It allows direct haptic feedback in manipulation
data collection and adapts human motion to feasible robot hand motion. The
software adaptation bridges the visual gap by replacing the human hand in video
data with high-fidelity robot hand inpainting. We demonstrate DexUMI's
capabilities through comprehensive real-world experiments on two different
dexterous robot hand hardware platforms, achieving an average task success rate
of 86%.