X-Humanoid: Menselijke video's robotiseren om op grote schaal humanoïde video's te genereren
X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
December 4, 2025
Auteurs: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI
Samenvatting
De vooruitgang in belichaamde AI heeft aanzienlijk potentieel ontsloten voor intelligente humanoïde robots. De voortgang in zowel Vision-Language-Action (VLA)-modellen als wereldmodellen wordt echter ernstig belemmerd door het gebrek aan grootschalige, diverse trainingsdata. Een veelbelovende oplossing is het "robotiseren" van web-schaal menselijke video's, waarvan de effectiviteit voor beleidstraining is bewezen. Deze oplossingen 'plakken' echter voornamelijk robotarmen over egocentrische video's heen, waardoor ze niet om kunnen gaan met complexe volledige lichaamsbewegingen en scène-occlusies in derdepersoonsvideo's, wat ze ongeschikt maakt voor het robotiseren van mensen. Om deze kloof te overbruggen, introduceren we X-Humanoid, een generatieve videobewerkingsaanpak die het krachtige Wan 2.2-model aanpast naar een video-naar-video structuur en het finetunt voor de taak van mens-naar-humanoid vertaling. Deze finetuning vereist gepaarde mens-humanoid video's, daarom ontwierpen we een schaalbare dataproductiepijplijn die community-assets omzet in meer dan 17 uur aan gepaarde synthetische video's met behulp van Unreal Engine. Vervolgens passen we ons getrainde model toe op 60 uur aan Ego-Exo4D-video's, waarbij we een nieuwe grootschalige dataset genereren en vrijgeven met meer dan 3,6 miljoen 'gerobotiseerde' humanoïde videoframes. Kwantitatieve analyse en gebruikersstudies bevestigen de superioriteit van onze methode ten opzichte van bestaande baseline-methoden: 69% van de gebruikers beoordeelde hem als de beste voor bewegingsconsistentie en 62,1% voor de correctheid van de belichaming.
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.