X-Humanoid:人間の動画をロボット化し、大規模なヒューマノイド動画を生成
X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
December 4, 2025
著者: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
cs.AI
要旨
具身AIの進歩により、ヒューマノイドロボットの知能化に大きな可能性が開かれた。しかし、Vision-Language-Action(VLA)モデルと世界モデルの双方の発展は、大規模で多様な訓練データの不足によって深刻な制約を受けている。有望な解決策として、Web規模の人間動作ビデオを「ロボット化」する手法が提案され、政策訓練において有効性が実証されている。しかし既存手法は主にエゴセントリックビデオにロボットアームを「重ねる」方式であり、三人称ビデオにおける複雑な全身動作や場景オクルージョンに対処できないため、人間動作のロボット化には不向きである。この課題を解決するため、我々はX-Humanoidを提案する。これはWan 2.2モデルをビデオ対ビデオ構造に適合させ、人間-ヒューマノイド変換タスク向けにファインチューニングした生成的ビデオ編集手法である。このファインチューニングには対をなす人間-ヒューマノイドビデオが必要なため、Unreal Engineを用いてコミュニティ資産を17時間以上の合成ペアビデオに変換するスケーラブルなデータ生成パイプラインを構築した。学習済みモデルをEgo-Exo4Dの60時間分のビデオに適用し、360万フレーム以上の新規大規模「ロボット化」ヒューマノイドビデオデータセットを生成・公開した。定量分析とユーザスタディにより、本手法が既存ベースラインを凌駕することを確認:ユーザの69%が動作一貫性で、62.1%が身体性の正確さで当手法を最高と評価した。
English
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.