PHUMA: Dataset di Locomozione Umanoide con Base Fisica
PHUMA: Physically-Grounded Humanoid Locomotion Dataset
October 30, 2025
Autori: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo
cs.AI
Abstract
L'imitazione del movimento è un approccio promettente per la locomozione umanoide, consentendo agli agenti di acquisire comportamenti simili a quelli umani. I metodi esistenti si basano tipicamente su dataset di motion capture di alta qualità come AMASS, ma questi sono scarsi e costosi, limitando scalabilità e diversità. Studi recenti tentano di scalare la raccolta dati convertendo video internet su larga scala, come dimostrato da Humanoid-X. Tuttavia, spesso introducono artefatti fisici come fluttuazione, penetrazione e scivolamento dei piedi, che ostacolano un'imitazione stabile. In risposta, presentiamo PHUMA, un dataset di locomozione umanoide fisicamente fondato (Physically-grounded HUMAnoid) che sfrutta video umani su larga scala, affrontando nel contempo gli artefatti fisici attraverso un'attenta curatela dei dati e un retargeting vincolato dalla fisica. PHUMA applica limiti articolari, garantisce il contatto con il terreno ed elimina lo scivolamento dei piedi, producendo movimenti sia su larga scala che fisicamente affidabili. Abbiamo valutato PHUMA in due serie di condizioni: (i) imitazione di movimenti non visti da video di test auto-registrati e (ii) seguimento di traiettorie con guida limitata al bacino. In entrambi i casi, le policy addestrate con PHUMA superano Humanoid-X e AMASS, ottenendo miglioramenti significativi nell'imitazione di movimenti diversificati. Il codice è disponibile su https://davian-robotics.github.io/PHUMA.
English
Motion imitation is a promising approach for humanoid locomotion, enabling
agents to acquire humanlike behaviors. Existing methods typically rely on
high-quality motion capture datasets such as AMASS, but these are scarce and
expensive, limiting scalability and diversity. Recent studies attempt to scale
data collection by converting large-scale internet videos, exemplified by
Humanoid-X. However, they often introduce physical artifacts such as floating,
penetration, and foot skating, which hinder stable imitation. In response, we
introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that
leverages human video at scale, while addressing physical artifacts through
careful data curation and physics-constrained retargeting. PHUMA enforces joint
limits, ensures ground contact, and eliminates foot skating, producing motions
that are both large-scale and physically reliable. We evaluated PHUMA in two
sets of conditions: (i) imitation of unseen motion from self-recorded test
videos and (ii) path following with pelvis-only guidance. In both cases,
PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant
gains in imitating diverse motions. The code is available at
https://davian-robotics.github.io/PHUMA.