ChatPaper.aiChatPaper

X-Humanoid: 인간 동영상의 로봇화를 통한 대규모 휴머노이드 동영상 생성

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

December 4, 2025
저자: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI

초록

구현된 AI의 발전으로 지능형 휴머노이드 로봇의 상당한 잠재력이 열렸습니다. 그러나 Vision-Language-Action(VLA) 모델과 월드 모델 모두의 발전은 대규모 다양성 훈련 데이터의 부족으로 심각하게 저해되고 있습니다. 유망한 해결책은 웹 규모의 인간 동영상을 '로봇화'하는 것으로, 이는 정책 훈련에 효과적인 것으로 입증되었습니다. 그러나 이러한 솔루션은 주로 로봇 팔을 1인칭 동영상에 '덧씌우는' 방식으로, 3인칭 동영상의 복잡한 전신 동작과 장면 폐색을 처리할 수 없어 인간을 로봇화하는 데 부적합합니다. 이러한 격차를 해결하기 위해 우리는 강력한 Wan 2.2 모델을 비디오-투-비디오 구조로 적용하고 인간-휴머노이드 변환 작업을 위해 미세 조정하는 생성형 비디오 편집 접근법인 X-Humanoid를 소개합니다. 이 미세 조정에는 짝을 이룬 인간-휴머노이드 동영상이 필요하므로, 우리는 확장 가능한 데이터 생성 파이프라인을 설계하여 언리얼 엔진을 사용하여 커뮤니티 자산을 17시간 이상의 짝을 이룬 합성 동영상으로 전환했습니다. 그런 다음 훈련된 모델을 Ego-Exo4D 동영상 60시간 분량에 적용하여 360만 프레임 이상의 새로운 대규모 '로봇화'된 휴머노이드 비디오 데이터 세트를 생성하고 공개했습니다. 정량적 분석과 사용자 조사는 우리 방법이 기존 기준선보다 우월함을 확인합니다: 사용자의 69%가 모션 일관성에서, 62.1%가 구현 정확성에서 우리 방법을 최고로 평가했습니다.
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.
PDF11December 13, 2025