PHUMA : Jeu de données de locomotion humanoïde fondé sur la physique
PHUMA: Physically-Grounded Humanoid Locomotion Dataset
October 30, 2025
papers.authors: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo
cs.AI
papers.abstract
L'imitation du mouvement est une approche prometteuse pour la locomotion humanoïde, permettant aux agents d'acquérir des comportements similaires à ceux des humains. Les méthodes existantes reposent généralement sur des ensembles de données de capture de mouvement de haute qualité comme AMASS, mais ceux-ci sont rares et coûteux, limitant l'évolutivité et la diversité. Des études récentes tentent d'étendre la collecte de données en convertissant des vidéos internet à grande échelle, comme le démontre Humanoid-X. Cependant, elles introduisent souvent des artefacts physiques tels que la lévitation, les pénétrations et le glissement des pieds, qui entravent l'imitation stable. En réponse, nous présentons PHUMA, un ensemble de données de locomotion humanoïde physiquement fondé qui exploite des vidéos humaines à grande échelle, tout en résolvant les artefacts physiques par une curation minutieuse des données et un retargeting contraint par la physique. PHUMA applique des limites articulaires, garantit le contact avec le sol et élimine le glissement des pieds, produisant des mouvements à la fois à grande échelle et physiquement fiables. Nous avons évalué PHUMA dans deux ensembles de conditions : (i) l'imitation de mouvements inédits à partir de vidéos de test auto-enregistrées et (ii) le suivi de trajectoire avec guidage pelvien uniquement. Dans les deux cas, les politiques entraînées sur PHUMA surpassent Humanoid-X et AMASS, obtenant des gains significatifs dans l'imitation de mouvements divers. Le code est disponible à l'adresse https://davian-robotics.github.io/PHUMA.
English
Motion imitation is a promising approach for humanoid locomotion, enabling
agents to acquire humanlike behaviors. Existing methods typically rely on
high-quality motion capture datasets such as AMASS, but these are scarce and
expensive, limiting scalability and diversity. Recent studies attempt to scale
data collection by converting large-scale internet videos, exemplified by
Humanoid-X. However, they often introduce physical artifacts such as floating,
penetration, and foot skating, which hinder stable imitation. In response, we
introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that
leverages human video at scale, while addressing physical artifacts through
careful data curation and physics-constrained retargeting. PHUMA enforces joint
limits, ensures ground contact, and eliminates foot skating, producing motions
that are both large-scale and physically reliable. We evaluated PHUMA in two
sets of conditions: (i) imitation of unseen motion from self-recorded test
videos and (ii) path following with pelvis-only guidance. In both cases,
PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant
gains in imitating diverse motions. The code is available at
https://davian-robotics.github.io/PHUMA.