ChatPaper.aiChatPaper

Repenser le modèle de génération vidéo pour le monde incarné

Rethinking Video Generation Model for the Embodied World

January 21, 2026
papers.authors: Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou
cs.AI

papers.abstract

Les modèles de génération vidéo ont considérablement fait progresser l'intelligence incarnée, ouvrant de nouvelles possibilités pour générer des données robotiques diversifiées qui capturent la perception, le raisonnement et l'action dans le monde physique. Cependant, la synthèse de vidéos de haute qualité reflétant fidèlement les interactions robotiques réelles reste difficile, et l'absence de référence standardisée limite les comparaisons équitables et les progrès. Pour combler cette lacune, nous présentons une référence robotique complète, RBench, conçue pour évaluer la génération vidéo orientée robotique à travers cinq domaines de tâches et quatre incarnations distinctes. Elle évalue à la fois la justesse au niveau de la tâche et la fidélité visuelle via des sous-métriques reproductibles, incluant la cohérence structurelle, la plausibilité physique et l'exhaustivité de l'action. L'évaluation de 25 modèles représentatifs met en lumière des déficiences significatives dans la génération de comportements robotiques physiquement réalistes. De plus, la référence atteint un coefficient de corrélation de Spearman de 0,96 avec les évaluations humaines, validant son efficacité. Bien que RBench fournisse l'outil nécessaire pour identifier ces déficiences, atteindre le réalisme physique nécessite de dépasser l'évaluation pour remédier à la pénurie critique de données d'entraînement de haute qualité. Motivés par ces constats, nous introduisons un pipeline de données raffiné en quatre étapes, aboutissant à RoVid-X, le plus grand ensemble de données robotiques open-source pour la génération vidéo avec 4 millions de clips vidéo annotés, couvrant des milliers de tâches et enrichi d'annotations complètes de propriétés physiques. Collectivement, cet écosystème synergique d'évaluation et de données établit une base solide pour l'évaluation rigoureuse et l'entraînement scalable des modèles vidéo, accélérant l'évolution de l'IA incarnée vers l'intelligence générale.
English
Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.
PDF360January 23, 2026