X-Humanoid: Robotizar Vídeos Humanos para Gerar Vídeos Humanoides em Escala
X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
December 4, 2025
Autores: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI
Resumo
O avanço da IA incorporada desbloqueou um potencial significativo para robôs humanoides inteligentes. No entanto, o progresso tanto em modelos Visão-Linguagem-Ação (VLA) quanto em modelos de mundo é severamente limitado pela escassez de dados de treinamento em larga escala e diversificados. Uma solução promissora é "robotizar" vídeos humanos da web, o que se mostrou eficaz para o treinamento de políticas. Contudo, essas soluções principalmente "sobrepõem" braços robóticos a vídeos egocêntricos, incapazes de lidar com movimentos complexos de corpo inteiro e oclusões de cena em vídeos em terceira pessoa, tornando-as inadequadas para robotizar humanos. Para preencher esta lacuna, apresentamos o X-Humanoid, uma abordagem de edição generativa de vídeo que adapta o poderoso modelo Wan 2.2 para uma estrutura vídeo-para-vídeo e o ajusta para a tarefa de tradução humano-para-humanoide. Este ajuste fino requer vídeos pareados humano-humanoide, portanto, projetamos um pipeline escalável de criação de dados, convertendo recursos da comunidade em mais de 17 horas de vídeos sintéticos pareados usando o Unreal Engine. Em seguida, aplicamos nosso modelo treinado a 60 horas de vídeos do Ego-Exo4D, gerando e divulgando um novo conjunto de dados em larga escala com mais de 3,6 milhões de quadros de vídeo humanoide "robotizados". Análises quantitativas e estudos com usuários confirmam a superioridade do nosso método sobre as linhas de base existentes: 69% dos usuários o classificaram como o melhor em consistência de movimento e 62,1% em correção de incorporação.
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.