Umdenken bei Videogenerierungsmodellen für die verkörperte Welt
Rethinking Video Generation Model for the Embodied World
January 21, 2026
papers.authors: Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou
cs.AI
papers.abstract
Videogenerierungsmodelle haben die verkörperte Intelligenz erheblich vorangebracht und neue Möglichkeiten eröffnet, um diverse Roboterdaten zu generieren, die Wahrnehmung, Entscheidungsfindung und Handlung in der physischen Welt erfassen. Die Synthese hochwertiger Videos, die reale robotische Interaktionen präzise widerspiegeln, bleibt jedoch eine Herausforderung, und das Fehlen eines standardisierten Benchmarks schränkt faire Vergleiche und Fortschritte ein. Um diese Lücke zu schließen, stellen wir einen umfassenden Robotik-Benchmark vor, RBench, der zur Bewertung roboterorientierter Videogenerierung in fünf Aufgabenbereichen und vier verschiedenen Verkörperungen konzipiert ist. Er bewertet sowohl die Korrektheit auf Aufgabenniveau als auch die visuelle Qualität durch reproduzierbare Teilmetriken, darunter strukturelle Konsistenz, physikalische Plausibilität und Handlungsvollständigkeit. Die Evaluation von 25 repräsentativen Modellen zeigt erhebliche Defizite bei der Erzeugung physikalisch realistischer Roboterverhalten auf. Darüber hinaus erreicht der Benchmark einen Spearman-Korrelationskoeffizienten von 0,96 mit menschlichen Bewertungen, was seine Wirksamkeit bestätigt. Während RBench die notwendige Perspektive bietet, um diese Defizite zu identifizieren, erfordert die Erreichung physikalischer Realismus über die Evaluation hinaus die Behebung des kritischen Mangels an hochwertigen Trainingsdaten. Aufbauend auf diesen Erkenntnissen führen wir eine optimierte vierstufige Datenpipeline ein, die zu RoVid-X führt, dem größten Open-Source-Robotikdatensatz für Videogenerierung mit 4 Millionen annotierten Videoclips, der Tausende von Aufgaben abdeckt und mit umfassenden physikalischen Eigenschaftsannotationen angereichert ist. Zusammengenommen bildet dieses synergetische Ökosystem aus Evaluation und Daten eine robuste Grundlage für rigorose Bewertung und skalierbares Training von Videomodellen und beschleunigt die Entwicklung verkörperter KI hin zu allgemeiner Intelligenz.
English
Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.