PHUMA: Conjunto de Datos de Locomoción de Humanoides con Base Física

Resumen

La imitación de movimiento es un enfoque prometedor para la locomoción de humanoides, permitiendo que los agentes adquieran comportamientos similares a los humanos. Los métodos existentes generalmente dependen de conjuntos de datos de captura de movimiento de alta calidad como AMASS, pero estos son escasos y costosos, lo que limita la escalabilidad y diversidad. Estudios recientes intentan escalar la recolección de datos convirtiendo videos masivos de internet, ejemplificado por Humanoid-X. Sin embargo, estos métodos suelen introducir artefactos físicos como flotación, penetración y deslizamiento de pies, que dificultan la imitación estable. Como respuesta, presentamos PHUMA, un conjunto de datos de locomoción humanoide con bases físicas que aprovecha videos humanos a gran escala, abordando los artefactos físicos mediante una cuidadosa curación de datos y redireccionamiento con restricciones físicas. PHUMA aplica límites articulares, garantiza contacto con el suelo y elimina el deslizamiento de pies, produciendo movimientos que son tanto a gran escala como físicamente confiables. Evaluamos PHUMA en dos conjuntos de condiciones: (i) imitación de movimientos no vistos provenientes de videos de prueba auto-grabados y (ii) seguimiento de trayectorias con guiado exclusivo de pelvis. En ambos casos, las políticas entrenadas con PHUMA superan a Humanoid-X y AMASS, logrando mejoras significativas en la imitación de movimientos diversos. El código está disponible en https://davian-robotics.github.io/PHUMA.

English

Motion imitation is a promising approach for humanoid locomotion, enabling agents to acquire humanlike behaviors. Existing methods typically rely on high-quality motion capture datasets such as AMASS, but these are scarce and expensive, limiting scalability and diversity. Recent studies attempt to scale data collection by converting large-scale internet videos, exemplified by Humanoid-X. However, they often introduce physical artifacts such as floating, penetration, and foot skating, which hinder stable imitation. In response, we introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that leverages human video at scale, while addressing physical artifacts through careful data curation and physics-constrained retargeting. PHUMA enforces joint limits, ensures ground contact, and eliminates foot skating, producing motions that are both large-scale and physically reliable. We evaluated PHUMA in two sets of conditions: (i) imitation of unseen motion from self-recorded test videos and (ii) path following with pelvis-only guidance. In both cases, PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant gains in imitating diverse motions. The code is available at https://davian-robotics.github.io/PHUMA.

PHUMA: Conjunto de Datos de Locomoción de Humanoides con Base Física

PHUMA: Physically-Grounded Humanoid Locomotion Dataset

Resumen

Support