ChatPaper.aiChatPaper

X-Humanoide: Robotizar videos humanos para generar videos humanoides a escala

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

December 4, 2025
Autores: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI

Resumen

El avance de la IA encarnada ha desbloqueado un potencial significativo para los robots humanoides inteligentes. Sin embargo, el progreso tanto en los modelos Visión-Lenguaje-Acción (VLA) como en los modelos del mundo se ve severamente obstaculizado por la escasez de datos de entrenamiento a gran escala y diversos. Una solución prometedora es "robotizar" videos humanos a escala web, lo cual ha demostrado ser efectivo para el entrenamiento de políticas. No obstante, estas soluciones principalmente "superponen" brazos robóticos a videos egocéntricos, lo que no puede manejar movimientos corporales complejos y oclusiones de escena en videos en tercera persona, haciéndolas inadecuadas para robotizar humanos. Para cerrar esta brecha, presentamos X-Humanoid, un enfoque de edición de video generativo que adapta el potente modelo Wan 2.2 a una estructura video-a-video y lo ajusta para la tarea de traducción humano-humanoide. Este ajuste fino requiere videos emparejados de humano-humanoide, por lo que diseñamos un pipeline escalable de creación de datos, transformando recursos de la comunidad en más de 17 horas de videos sintéticos emparejados utilizando Unreal Engine. Luego aplicamos nuestro modelo entrenado a 60 horas de videos de Ego-Exo4D, generando y liberando un nuevo conjunto de datos a gran escala de más de 3.6 millones de fotogramas de video "robotizados" de humanoides. El análisis cuantitativo y los estudios de usuarios confirman la superioridad de nuestro método sobre las líneas base existentes: el 69% de los usuarios lo calificó como el mejor en consistencia de movimiento, y el 62.1% en corrección de encarnación.
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.
PDF11December 13, 2025