Ripensare il Modello di Generazione Video per il Mondo Embodied
Rethinking Video Generation Model for the Embodied World
January 21, 2026
Autori: Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou
cs.AI
Abstract
I modelli di generazione video hanno fatto progredire significativamente l'intelligenza incarnata, sbloccando nuove possibilità per generare dati robotici diversificati che catturano percezione, ragionamento e azione nel mondo fisico. Tuttavia, sintetizzare video di alta qualità che riflettano accuratamente le interazioni robotiche nel mondo reale rimane una sfida, e la mancanza di un benchmark standardizzato limita confronti equi e progressi. Per colmare questa lacuna, introduciamo un benchmark robotico completo, RBench, progettato per valutare la generazione video orientata alla robotica in cinque domini di compiti e quattro incarnazioni distinte. Esso valuta sia la correttezza a livello di compito che la fedeltà visiva attraverso sottometriche riproducibili, inclusa coerenza strutturale, plausibilità fisica e completezza dell'azione. La valutazione di 25 modelli rappresentativi evidenzia carenze significative nella generazione di comportamenti robotici fisicamente realistici. Inoltre, il benchmark raggiunge un coefficiente di correlazione di Spearman di 0.96 con le valutazioni umane, validandone l'efficacia. Sebbene RBench fornisca la lente necessaria per identificare queste carenze, raggiungere il realismo fisico richiede di andare oltre la valutazione per affrontare la critica carenza di dati di addestramento di alta qualità. Guidati da queste intuizioni, introduciamo una pipeline di dati raffinata in quattro fasi, risultante in RoVid-X, il più grande dataset robotico open-source per la generazione video con 4 milioni di clip video annotate, che copre migliaia di compiti e arricchito con annotazioni complete delle proprietà fisiche. Collettivamente, questo ecosistema sinergico di valutazione e dati stabilisce una solida base per la valutazione rigorosa e l'addestramento scalabile di modelli video, accelerando l'evoluzione dell'IA incarnata verso l'intelligenza generale.
English
Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.