Переосмысление моделей генерации видео для воплощённого мира
Rethinking Video Generation Model for the Embodied World
January 21, 2026
Авторы: Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou
cs.AI
Аннотация
Модели генерации видео значительно продвинули развитие воплощённого интеллекта, открыв новые возможности для создания разнообразных роботизированных данных, которые фиксируют восприятие, логику и действия в физическом мире. Однако синтез высококачественных видео, точно отражающих реальное взаимодействие роботов, остаётся сложной задачей, а отсутствие стандартизированного бенчмарка ограничивает возможность объективных сравнений и прогресс. Для устранения этого пробела мы представляем комплексный робототехнический бенчмарк RBench, разработанный для оценки ориентированной на роботов генерации видео в пяти предметных областях и для четырёх различных воплощений. Он оценивает как корректность на уровне задач, так и визуальное качество с помощью воспроизводимых суб-метрик, включая структурную согласованность, физическую правдоподобность и полноту действий. Оценка 25 репрезентативных моделей выявила значительные недостатки в генерации физически реалистичного поведения роботов. Кроме того, бенчмарк демонстрирует коэффициент корреляции Спирмена 0,96 с оценками людей, что подтверждает его эффективность. Хотя RBench предоставляет необходимый инструмент для выявления этих недостатков, достижение физического реализма требует выхода за рамки оценки для решения критической нехватки высококачественных данных для обучения. Руководствуясь этими выводами, мы представляем усовершенствованный четырёхэтапный конвейер обработки данных, результатом которого стал RoVid-X — крупнейший открытый набор роботизированных данных для генерации видео, содержащий 4 миллиона размеченных видеоклипов, охватывающих тысячи задач и обогащённых комплексными аннотациями физических свойств. В совокупности эта синергетическая экосистема оценки и данных создает надежную основу для строгой оценки и масштабируемого обучения видео-моделей, ускоряя эволюцию воплощённого ИИ в направлении общего интеллекта.
English
Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.