X-Humanoid: Robotizzare video umani per generare video umanoidi su larga scala
X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
December 4, 2025
Autori: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI
Abstract
L'avanzamento dell'IA incarnata ha sbloccato un potenziale significativo per i robot umanoidi intelligenti. Tuttavia, i progressi sia nei modelli Visione-Linguaggio-Azione (VLA) che nei modelli del mondo sono fortemente ostacolati dalla scarsità di dati di addestramento su larga scala e diversificati. Una soluzione promettente è "robotizzare" video umani del web, approccio che si è dimostrato efficace per l'addestramento delle politiche di controllo. Tuttavia, queste soluzioni si limitano principalmente a "sovrapporre" bracci robotici a video in prima persona, incapaci di gestire movimenti complessi del corpo intero e occlusioni della scena nei video in terza persona, rendendole inadatte a robotizzare esseri umani. Per colmare questa lacuna, introduciamo X-Humanoid, un approccio di editing video generativo che adatta il potente modello Wan 2.2 in una struttura video-to-video e lo specializza per il compito di traduzione da umano a umanoide. Questa specializzazione richiede video accoppiati umano-umanoide, quindi abbiamo progettato una pipeline scalabile per la creazione di dati, trasformando asset della community in oltre 17 ore di video sintetici accoppiati utilizzando Unreal Engine. Abbiamo quindi applicato il nostro modello addestrato a 60 ore di video di Ego-Exo4D, generando e rilasciando un nuovo dataset su larga scala di oltre 3,6 milioni di frame video "robotizzati" di umanoidi. L'analisi quantitativa e gli studi sugli utenti confermano la superiorità del nostro metodo rispetto ai benchmark esistenti: il 69% degli utenti lo ha valutato come il migliore per la coerenza del movimento e il 62,1% per la correttezza dell'incarnazione.
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.