PHUMA: Физически обоснованный набор данных о локомоции гуманоидных роботов
PHUMA: Physically-Grounded Humanoid Locomotion Dataset
October 30, 2025
Авторы: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo
cs.AI
Аннотация
Имитация движений является перспективным подходом для локомоции гуманоидных роботов, позволяя агентам осваивать человекоподобное поведение. Существующие методы обычно опираются на высококачественные наборы данных захвата движений, такие как AMASS, однако они малочисленны и дороги, что ограничивает масштабируемость и разнообразие. Недавние исследования пытаются масштабировать сбор данных путем конвертации крупномасштабных интернет-видео, как в проекте Humanoid-X. Однако такие подходы часто порождают физические артефакты, такие как парение, проникновение сквозь поверхности и скольжение стоп, что затрудняет стабильную имитацию. В ответ на это мы представляем PHUMA — физически обоснованный набор данных о локомоции гуманоидов, который использует масштабируемые человеческие видео, одновременно устраняя физические артефакты за счет тщательной обработки данных и ретаргетинга с физическими ограничениями. PHUMA обеспечивает соблюдение ограничений суставов, гарантирует контакт с поверхностью и устраняет скольжение стоп, создавая движения, которые являются как крупномасштабными, так и физически достоверными. Мы оценили PHUMA в двух наборах условий: (i) имитация незнакомых движений из самостоятельно записанных тестовых видео и (ii) следование по пути с управлением только через таз. В обоих случаях политики, обученные на PHUMA, превзошли результаты Humanoid-X и AMASS, показав значительный прогресс в имитации разнообразных движений. Код доступен по адресу https://davian-robotics.github.io/PHUMA.
English
Motion imitation is a promising approach for humanoid locomotion, enabling
agents to acquire humanlike behaviors. Existing methods typically rely on
high-quality motion capture datasets such as AMASS, but these are scarce and
expensive, limiting scalability and diversity. Recent studies attempt to scale
data collection by converting large-scale internet videos, exemplified by
Humanoid-X. However, they often introduce physical artifacts such as floating,
penetration, and foot skating, which hinder stable imitation. In response, we
introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that
leverages human video at scale, while addressing physical artifacts through
careful data curation and physics-constrained retargeting. PHUMA enforces joint
limits, ensures ground contact, and eliminates foot skating, producing motions
that are both large-scale and physically reliable. We evaluated PHUMA in two
sets of conditions: (i) imitation of unseen motion from self-recorded test
videos and (ii) path following with pelvis-only guidance. In both cases,
PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant
gains in imitating diverse motions. The code is available at
https://davian-robotics.github.io/PHUMA.