PHUMA: Physikalisch fundierter Datensatz für humanoide Fortbewegung
PHUMA: Physically-Grounded Humanoid Locomotion Dataset
October 30, 2025
papers.authors: Kyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo
cs.AI
papers.abstract
Bewegungsnachahmung ist ein vielversprechender Ansatz für die Fortbewegung von Humanoiden, der es Agenten ermöglicht, menschenähnliche Verhaltensweisen zu erlernen. Bisherige Methoden stützen sich typischerweise auf hochwertige Motion-Capture-Datensätze wie AMASS, die jedoch rar und teuer sind, was Skalierbarkeit und Vielfalt einschränkt. Neuere Studien versuchen, die Datenerfassung durch die Konvertierung groß angelegter Internetvideos, beispielhaft durch Humanoid-X, zu skalieren. Dabei entstehen jedoch häufig physikalische Artefakte wie Schweben, Durchdringung und Fußgleiten, die eine stabile Nachahmung behindern. Als Antwort darauf stellen wir PHUMA vor, einen physikalisch fundierten HUMAnoiden Fortbewegungsdatensatz, der menschliche Videos in großem Maßstab nutzt und gleichzeitig physikalische Artefakte durch sorgfältige Datenkuratierung und physikalisch beschränktes Retargeting adressiert. PHUMA erzwingt Gelenkgrenzen, gewährleistet Bodenkontakt und eliminiert Fußgleiten, wodurch Bewegungen erzeugt werden, die sowohl großskalig als auch physikalisch zuverlässig sind. Wir evaluierten PHUMA unter zwei Bedingungen: (i) Nachahmung ungesehener Bewegungen aus selbst aufgenommenen Testvideos und (ii) Pfadverfolgung mit ausschließlicher Beckenführung. In beiden Fällen übertreffen mit PHUMA trainierte Strategien Humanoid-X und AMASS und erzielen signifikante Verbesserungen bei der Nachahmung verschiedenster Bewegungen. Der Code ist verfügbar unter https://davian-robotics.github.io/PHUMA.
English
Motion imitation is a promising approach for humanoid locomotion, enabling
agents to acquire humanlike behaviors. Existing methods typically rely on
high-quality motion capture datasets such as AMASS, but these are scarce and
expensive, limiting scalability and diversity. Recent studies attempt to scale
data collection by converting large-scale internet videos, exemplified by
Humanoid-X. However, they often introduce physical artifacts such as floating,
penetration, and foot skating, which hinder stable imitation. In response, we
introduce PHUMA, a Physically-grounded HUMAnoid locomotion dataset that
leverages human video at scale, while addressing physical artifacts through
careful data curation and physics-constrained retargeting. PHUMA enforces joint
limits, ensures ground contact, and eliminates foot skating, producing motions
that are both large-scale and physically reliable. We evaluated PHUMA in two
sets of conditions: (i) imitation of unseen motion from self-recorded test
videos and (ii) path following with pelvis-only guidance. In both cases,
PHUMA-trained policies outperform Humanoid-X and AMASS, achieving significant
gains in imitating diverse motions. The code is available at
https://davian-robotics.github.io/PHUMA.