PHUMA: Conjunto de Dados de Locomoção Humanóide com Base Física
PHUMA: Physically-Grounded Humanoid Locomotion Dataset
October 30, 2025
Autores: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo
cs.AI
Resumo
A imitação de movimento é uma abordagem promissora para locomoção de humanoides, permitindo que agentes adquiram comportamentos semelhantes aos humanos. Os métodos existentes geralmente dependem de conjuntos de dados de captura de movimento de alta qualidade, como o AMASS, mas estes são escassos e caros, limitando a escalabilidade e a diversidade. Estudos recentes tentam escalar a coleta de dados convertendo vídeos da internet em larga escala, exemplificado pelo Humanoid-X. No entanto, eles frequentemente introduzem artefatos físicos, como flutuação, penetração e deslizamento dos pés, que dificultam a imitação estável. Em resposta, apresentamos o PHUMA, um conjunto de dados de locomoção HUMAnoide com base Física que aproveita vídeos humanos em larga escala, ao mesmo tempo que aborda os artefatos físicos por meio de uma curadoria de dados cuidadosa e um redirecionamento com restrições físicas. O PHUMA aplica limites articulares, garante o contato com o solo e elimina o deslizamento dos pés, produzindo movimentos que são tanto em larga escala quanto fisicamente confiáveis. Avaliamos o PHUMA em dois conjuntos de condições: (i) imitação de movimento não visto a partir de vídeos de teste auto-gravados e (ii) seguimento de trajetória com orientação apenas da pélvis. Em ambos os casos, as políticas treinadas com PHUMA superaram o Humanoid-X e o AMASS, alcançando ganhos significativos na imitação de movimentos diversos. O código está disponível em https://davian-robotics.github.io/PHUMA.
English
Motion imitation is a promising approach for humanoid locomotion, enabling
agents to acquire humanlike behaviors. Existing methods typically rely on
high-quality motion capture datasets such as AMASS, but these are scarce and
expensive, limiting scalability and diversity. Recent studies attempt to scale
data collection by converting large-scale internet videos, exemplified by
Humanoid-X. However, they often introduce physical artifacts such as floating,
penetration, and foot skating, which hinder stable imitation. In response, we
introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that
leverages human video at scale, while addressing physical artifacts through
careful data curation and physics-constrained retargeting. PHUMA enforces joint
limits, ensures ground contact, and eliminates foot skating, producing motions
that are both large-scale and physically reliable. We evaluated PHUMA in two
sets of conditions: (i) imitation of unseen motion from self-recorded test
videos and (ii) path following with pelvis-only guidance. In both cases,
PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant
gains in imitating diverse motions. The code is available at
https://davian-robotics.github.io/PHUMA.