PHUMA: Conjunto de Datos de Locomoción de Humanoides con Base Física
PHUMA: Physically-Grounded Humanoid Locomotion Dataset
October 30, 2025
Autores: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo
cs.AI
Resumen
La imitación de movimiento es un enfoque prometedor para la locomoción de humanoides, permitiendo que los agentes adquieran comportamientos similares a los humanos. Los métodos existentes generalmente dependen de conjuntos de datos de captura de movimiento de alta calidad como AMASS, pero estos son escasos y costosos, lo que limita la escalabilidad y diversidad. Estudios recientes intentan escalar la recolección de datos convirtiendo videos masivos de internet, ejemplificado por Humanoid-X. Sin embargo, estos métodos suelen introducir artefactos físicos como flotación, penetración y deslizamiento de pies, que dificultan la imitación estable. Como respuesta, presentamos PHUMA, un conjunto de datos de locomoción humanoide con bases físicas que aprovecha videos humanos a gran escala, abordando los artefactos físicos mediante una cuidadosa curación de datos y redireccionamiento con restricciones físicas. PHUMA aplica límites articulares, garantiza contacto con el suelo y elimina el deslizamiento de pies, produciendo movimientos que son tanto a gran escala como físicamente confiables. Evaluamos PHUMA en dos conjuntos de condiciones: (i) imitación de movimientos no vistos provenientes de videos de prueba auto-grabados y (ii) seguimiento de trayectorias con guiado exclusivo de pelvis. En ambos casos, las políticas entrenadas con PHUMA superan a Humanoid-X y AMASS, logrando mejoras significativas en la imitación de movimientos diversos. El código está disponible en https://davian-robotics.github.io/PHUMA.
English
Motion imitation is a promising approach for humanoid locomotion, enabling
agents to acquire humanlike behaviors. Existing methods typically rely on
high-quality motion capture datasets such as AMASS, but these are scarce and
expensive, limiting scalability and diversity. Recent studies attempt to scale
data collection by converting large-scale internet videos, exemplified by
Humanoid-X. However, they often introduce physical artifacts such as floating,
penetration, and foot skating, which hinder stable imitation. In response, we
introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that
leverages human video at scale, while addressing physical artifacts through
careful data curation and physics-constrained retargeting. PHUMA enforces joint
limits, ensures ground contact, and eliminates foot skating, producing motions
that are both large-scale and physically reliable. We evaluated PHUMA in two
sets of conditions: (i) imitation of unseen motion from self-recorded test
videos and (ii) path following with pelvis-only guidance. In both cases,
PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant
gains in imitating diverse motions. The code is available at
https://davian-robotics.github.io/PHUMA.