ChatPaper.aiChatPaper

HERMES:マルチソースモーションデータに基づく人間からロボットへの具身学習による移動型精密操作

HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

August 27, 2025
著者: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu
cs.AI

要旨

人間の動作データを活用してロボットに多様な操作スキルを付与することは、ロボット操作における有望なパラダイムとして浮上しています。しかしながら、多様なソースからの人間の手の動きを実現可能なロボットの動作に変換することは、特に複雑で高次元のアクション空間を特徴とする多指デクスタスハンドを備えたロボットにおいて、依然として困難な課題です。さらに、既存のアプローチでは、多様な環境条件に適応可能なポリシーを生成することがしばしば困難です。本論文では、移動型両手デクスタス操作のための人間からロボットへの学習フレームワークであるHERMESを紹介します。まず、HERMESは、複数のソースからの異種の人間の手の動きを物理的に妥当なロボットの動作にシームレスに変換する統一された強化学習アプローチを定式化します。次に、シミュレーションから現実へのギャップを軽減するために、現実世界のシナリオへの一般化を向上させるためのエンドツーエンドの深度画像ベースのシミュレーションから現実への転送手法を考案します。さらに、多様で非構造化された環境での自律動作を可能にするために、ナビゲーション基盤モデルに閉ループPerspective-n-Point(PnP)位置推定メカニズムを追加し、視覚的目標の正確な位置合わせを確保し、自律ナビゲーションとデクスタス操作を効果的に橋渡しします。広範な実験結果により、HERMESが多様な実世界のシナリオにおいて一貫して一般化可能な動作を示し、数多くの複雑な移動型両手デクスタス操作タスクを成功裏に実行することが実証されています。プロジェクトページ: https://gemcollector.github.io/HERMES/。
English
Leveraging human motion data to impart robots with versatile manipulation skills has emerged as a promising paradigm in robotic manipulation. Nevertheless, translating multi-source human hand motions into feasible robot behaviors remains challenging, particularly for robots equipped with multi-fingered dexterous hands characterized by complex, high-dimensional action spaces. Moreover, existing approaches often struggle to produce policies capable of adapting to diverse environmental conditions. In this paper, we introduce HERMES, a human-to-robot learning framework for mobile bimanual dexterous manipulation. First, HERMES formulates a unified reinforcement learning approach capable of seamlessly transforming heterogeneous human hand motions from multiple sources into physically plausible robotic behaviors. Subsequently, to mitigate the sim2real gap, we devise an end-to-end, depth image-based sim2real transfer method for improved generalization to real-world scenarios. Furthermore, to enable autonomous operation in varied and unstructured environments, we augment the navigation foundation model with a closed-loop Perspective-n-Point (PnP) localization mechanism, ensuring precise alignment of visual goals and effectively bridging autonomous navigation and dexterous manipulation. Extensive experimental results demonstrate that HERMES consistently exhibits generalizable behaviors across diverse, in-the-wild scenarios, successfully performing numerous complex mobile bimanual dexterous manipulation tasks. Project Page:https://gemcollector.github.io/HERMES/.
PDF12September 1, 2025