身体性世界のためのビデオ生成モデルの再考
Rethinking Video Generation Model for the Embodied World
January 21, 2026
著者: Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou
cs.AI
要旨
ビデオ生成モデルは、身体性を持つ知能を大きく進歩させ、物理世界における知覚、推論、行動を捉えた多様なロボットデータを生成する新たな可能性を切り開いた。しかし、現実世界のロボット相互作用を正確に反映する高品質なビデオの合成は依然として困難であり、標準化されたベンチマークの欠如が公平な比較と進展を妨げている。この課題を解決するため、我々は5つのタスク領域と4つの異なる身体形態にわたってロボット指向のビデオ生成を評価する包括的なロボティクスベンチマーク「RBench」を提案する。本ベンチマークは、構造的一貫性、物理的妥当性、行動完結性といった再現可能な下位指標を通じて、タスクレベルの正確さと視覚的忠実度の両方を評価する。代表的な25モデルの評価により、物理的に現実的なロボット動作を生成する能力に重大な欠陥があることが明らかになった。さらに、本ベンチマークは人間による評価との間で0.96のスピアマン相関係数を達成し、その有効性を実証している。RBenchはこれらの欠陥を特定する必要な視点を提供するが、物理的リアリズムを達成するには、評価を超えて高品質な訓練データの深刻な不足に対処する必要がある。こうした知見に基づき、我々は洗練された4段階のデータパイプラインを構築し、数千のタスクを網羅し包括的な物理属性注釈を付与した400万の注釈付きビデオクリップからなる、ビデオ生成向け最大のオープンソースロボティクスデータセット「RoVid-X」を開発した。評価とデータの相乗的エコシステムは、ビデオモデルの厳密な評価とスケーラブルな訓練のための強固な基盤を確立し、汎用知能を目指す身体性AIの進化を加速するものである。
English
Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.