X-Humanoid: Роботизация человеческих видео для массового создания гуманоидных видеороликов
X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
December 4, 2025
Авторы: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI
Аннотация
Развитие воплощенного искусственного интеллекта открыло значительный потенциал для создания человекоподобных роботов. Однако прогресс как в моделях «Зрение-Язык-Действие» (VLA), так и в мировых моделях серьезно сдерживается нехваткой крупномасштабных и разнообразных данных для обучения. Перспективным решением является «роботизация» видеозаписей людей из интернета, что доказало свою эффективность для обучения политик. Однако существующие подходы в основном «накладывают» роботизированные руки на эгоцентричные видео, что не позволяет работать со сложными движениями всего тела и окклюзиями сцены в видео от третьего лица, делая их непригодными для роботизации человека. Чтобы устранить этот пробел, мы представляем X-Humanoid — генеративный метод редактирования видео, который адаптирует мощную модель Wan 2.2 в структуру «видео-в-видео» и дообучает ее для задачи трансляции движений человека в движения гуманоида. Для этого дообучения требуются парные видео «человек-гуманоид», поэтому мы разработали масштабируемый конвейер создания данных, преобразующий ресурсы сообщества в более чем 17 часов парных синтетических видео с помощью Unreal Engine. Затем мы применили нашу обученную модель к 60 часам видео из набора данных Ego-Exo4D, сгенерировав и выпустив новый крупномасштабный набор данных, содержащий более 3,6 миллионов «роботизированных» кадров видео с гуманоидами. Количественный анализ и пользовательские исследования подтверждают превосходство нашего метода над существующими аналогами: 69% пользователей оценили его как лучший по согласованности движений, а 62,1% — по корректности воплощения.
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.