Opnieuw nadenken over videogeneratiemodellen voor de belichaamde wereld

Samenvatting

Videogeneratiemodellen hebben een significante vooruitgang geboekt in belichaamde intelligentie, wat nieuwe mogelijkheden heeft ontsloten voor het genereren van diverse robotdata die waarneming, redenering en actie in de fysieke wereld vastleggen. Het synthetiseren van hoogwaardige video's die realistische robotinteracties nauwkeurig weergeven, blijft echter een uitdaging, en het ontbreken van een gestandaardiseerde benchmark beperkt eerlijke vergelijkingen en vooruitgang. Om deze kloof te dichten, introduceren we een uitgebreide robotica-benchmark, RBench, ontworpen om robotgeoriënteerde videogeneratie te evalueren over vijf taakdomeinen en vier verschillende belichamingen. Het beoordeelt zowel taaknauwkeurigheid als visuele kwaliteit via reproduceerbare submetrieken, waaronder structurele consistentie, fysieke geloofwaardigheid en actievolledigheid. Evaluatie van 25 representatieve modellen toont significante tekortkomingen in het genereren van fysiek realistische robotgedragingen. Verder bereikt de benchmark een Spearman-correlatiecoëfficiënt van 0.96 met humanevaluaties, wat de effectiviteit ervan bevestigt. Hoewel RBench de noodzakelijke lens biedt om deze tekortkomingen te identificeren, vereist het bereiken van fysiek realisme een verschuiving voorbij evaluatie naar het aanpakken van het kritieke tekort aan hoogwaardige trainingsdata. Gedreven door deze inzichten introduceren we een verfijnde vierstappendatapijplijn, resulterend in RoVid-X, de grootste open-source robotdataset voor videogeneratie met 4 miljoen geannoteerde videofragmenten, die duizenden taken beslaat en verrijkt is met uitgebreide fysieke eigenschapannotaties. Collectief vormt dit synergetische ecosysteem van evaluatie en data een robuuste basis voor rigoureuze beoordeling en schaalbare training van videomodellen, wat de evolutie van belichaamde AI versnelt richting algemene intelligentie.

English

Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.

Opnieuw nadenken over videogeneratiemodellen voor de belichaamde wereld

Rethinking Video Generation Model for the Embodied World

Samenvatting

Support