구현된 세계를 위한 비디오 생성 모델 재고
Rethinking Video Generation Model for the Embodied World
January 21, 2026
저자: Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou
cs.AI
초록
비디오 생성 모델은 물리적 세계의 인지, 추론 및 행동을 포착하는 다양한 로봇 데이터 생성의 새로운 가능성을 열어가며 구현형 인공지능을 크게 발전시켰습니다. 그러나 실제 로봇 상호작용을 정확히 반영하는 고품질 비디오 합성은 여전히 어려운 과제이며, 표준화된 벤치마크의 부재는 공정한 비교와 발전을 제한하고 있습니다. 이러한 격차를 해결하기 위해 우리는 5가지 작업 영역과 4가지 독립적인 구현체에 걸쳐 로봇 지향 비디오 생성을 평가하기 위해 설계된 포괄적인 로봇 공학 벤치마크인 RBench를 소개합니다. 이 벤치마크는 재현 가능한 하위 메트릭(구조적 일관성, 물리적 타당성, 행동 완전성 등)을 통해 작업 수준의 정확성과 시각적 충실도를 모두 평가합니다. 25개의 대표적인 모델에 대한 평가는 물리적으로 현실적인 로봇 행동을 생성하는 데 있어 상당한 결함이 있음을 보여줍니다. 더 나아가, 본 벤치마크는 인간 평가와 0.96의 스피어만 상관계수를 달성하여 그 효과성을 입증했습니다. RBench가 이러한 결함을 식별하는 데 필요한 렌즈를 제공하는 반면, 물리적 현실감을 달성하기 위해서는 평가를 넘어 고품질 학습 데이터의 심각한 부족 문제를 해결해야 합니다. 이러한 통찰력을 바탕으로, 우리는 정제된 4단계 데이터 파이프라인을 도입하여 400만 개의 주석이 달린 비디오 클립, 수천 가지의 작업 범위, 포괄적인 물리 속성 주석으로 구성된 비디오 생성용 최대 규모의 오픈소스 로봇 데이터셋인 RoVid-X를 개발했습니다. 종합적으로, 평가와 데이터의 이 상승적 생태계는 비디오 모델의 엄격한 평가와 확장 가능한 학습을 위한 견고한 기반을 마련함으로써 구현형 AI가 일반 지능으로 진화하는 것을 가속화할 것입니다.
English
Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.