ChatPaper.aiChatPaper

X-Humanoid : Robotiser des vidéos humaines pour générer des vidéos humanoïdes à grande échelle

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

December 4, 2025
papers.authors: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI

papers.abstract

Le progrès de l’IA incarnée a ouvert d’importantes perspectives pour les robots humanoïdes intelligents. Cependant, l’avancée des modèles vision-langage-action (VLA) et des modèles du monde est fortement limitée par le manque de données d’entraînement à grande échelle et diversifiées. Une solution prometteuse consiste à « robotiser » des vidéos humaines issues du web, une approche dont l’efficacité a été démontrée pour l’apprentissage de politiques. Toutefois, les méthodes existantes se contentent souvent de « superposer » des bras robotiques à des vidéos égocentriques, ce qui ne permet pas de traiter les mouvements complexes du corps entier ni les occlusions dans des vidéos à la troisième personne, les rendant inadaptées à la robotisation d’humains. Pour combler cette lacune, nous présentons X-Humanoid, une méthode de génération vidéo par édition qui adapte le puissant modèle Wan 2.2 en une structure vidéo-à-vidéo et l’affine pour la tâche de traduction humain-vers-humanoïde. Cet affinage nécessite des paires de vidéos humain-humanoïde ; nous avons donc conçu un pipeline scalable de création de données, transformant des ressources communautaires en plus de 17 heures de vidéos synthétiques appariées à l’aide d’Unreal Engine. Nous appliquons ensuite notre modèle entraîné à 60 heures de vidéos Ego-Exo4D, générant et publiant un nouveau jeu de données à grande échelle comprenant plus de 3,6 millions d’images vidéo « robotisées » d’humanoïdes. Les analyses quantitatives et les études utilisateur confirment la supériorité de notre méthode par rapport aux approches existantes : 69 % des utilisateurs l’ont jugée meilleure en cohérence motrice et 62,1 % en exactitude de l’incarnation.
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.
PDF11December 13, 2025