PHUMA: 物理ベースのヒューマノイド歩行データセット
PHUMA: Physically-Grounded Humanoid Locomotion Dataset
October 30, 2025
著者: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo
cs.AI
要旨
動作模倣はヒューマノイド移動における有望なアプローチであり、エージェントが人間らしい振る舞いを獲得することを可能にする。既存手法は一般にAMASSなどの高品質なモーションキャプチャデータセットに依存するが、これらは不足しており高価であるため、拡張性と多様性が制限される。近年の研究では、Humanoid-Xに代表されるように、大規模なインターネット動画を変換することでデータ収集の拡大を試みている。しかし、これらの手法では浮遊・貫通・足滑りなどの物理的な不自然さが生じやすく、安定した模倣の妨げとなる。これに対し我々は、大規模な人間動画を活用しつつ、注意深いデータ精選と物理制約付きリターゲティングにより物理的な不自然さを解決するPHUMA(物理接地型ヒューマノイド移動データセット)を提案する。PHUMAは関節可動域の制限を強制し、地面接触を保証し、足滑りを排除することで、大規模かつ物理的に信頼性の高い動作を生成する。PHUMAを2つの条件セットで評価した:(i)自己収録したテスト動画からの未見動作の模倣、(ii)骨盤のみの誘導による経路追従。いずれの場合も、PHUMAで学習したポリシーはHumanoid-XおよびAMASSを上回り、多様な動作の模倣において大幅な向上を達成した。コードはhttps://davian-robotics.github.io/PHUMAで公開されている。
English
Motion imitation is a promising approach for humanoid locomotion, enabling
agents to acquire humanlike behaviors. Existing methods typically rely on
high-quality motion capture datasets such as AMASS, but these are scarce and
expensive, limiting scalability and diversity. Recent studies attempt to scale
data collection by converting large-scale internet videos, exemplified by
Humanoid-X. However, they often introduce physical artifacts such as floating,
penetration, and foot skating, which hinder stable imitation. In response, we
introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that
leverages human video at scale, while addressing physical artifacts through
careful data curation and physics-constrained retargeting. PHUMA enforces joint
limits, ensures ground contact, and eliminates foot skating, producing motions
that are both large-scale and physically reliable. We evaluated PHUMA in two
sets of conditions: (i) imitation of unseen motion from self-recorded test
videos and (ii) path following with pelvis-only guidance. In both cases,
PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant
gains in imitating diverse motions. The code is available at
https://davian-robotics.github.io/PHUMA.