ChatPaper.aiChatPaper

X-Humanoid: Robotisierung menschlicher Videos zur großflächigen Erzeugung humanoider Videos

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

December 4, 2025
papers.authors: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI

papers.abstract

Die Entwicklung von verkörpertter KI hat erhebliches Potenzial für humanoide Roboter freigesetzt. Allerdings wird der Fortschritt sowohl bei Vision-Language-Action (VLA)-Modellen als auch bei Weltmodellen stark durch den Mangel an großen, vielfältigen Trainingsdaten behindert. Eine vielversprechende Lösung ist das "Robotisieren" von Web-Videos mit Menschen, was sich bereits für das Policy-Training als effektiv erwiesen hat. Diese Ansätze beschränken sich jedoch hauptsächlich darauf, Roboterarme in egozentrischen Videos "überzulagern", was komplexe Ganzkörperbewegungen und Verdeckungen in Third-Person-Videos nicht bewältigen kann und sie somit für die Robotisierung menschlicher Bewegungen ungeeignet macht. Um diese Lücke zu schließen, stellen wir X-Humanoid vor, einen generativen Videoediting-Ansatz, der das leistungsstarke Wan 2.2-Modell in eine Video-zu-Video-Architektur überführt und für die Aufgabe der Mensch-zu-Humanoid-Übersetzung feinabstimmt. Für diese Feinabstimmung sind gepaarte Mensch-Humanoid-Videos erforderlich. Daher haben wir eine skalierbare Pipeline zur Datenerstellung entwickelt, die Community-Assets mithilfe der Unreal Engine in über 17 Stunden synthetische gepaarte Videos umwandelt. Anschließend wenden wir unser trainiertes Modell auf 60 Stunden Ego-Exo4D-Videos an, generieren einen neuen großen Datensatz mit über 3,6 Millionen "robotisierten" Humanoid-Videobildern und veröffentlichen diesen. Quantitative Analysen und Nutzerstudien bestätigen die Überlegenheit unserer Methode gegenüber bestehenden Baseline-Verfahren: 69 % der Nutzer stuften sie als die beste in Bezug auf Bewegungskonsistenz und 62,1 % als die beste in Bezug auf die Korrektheit der Verkörperung ein.
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.
PDF11December 13, 2025