Replanteamiento del Modelo de Generación de Vídeo para el Mundo Embebido
Rethinking Video Generation Model for the Embodied World
January 21, 2026
Autores: Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou
cs.AI
Resumen
Los modelos de generación de vídeo han impulsado significativamente la inteligencia corporeizada, desbloqueando nuevas posibilidades para generar datos robóticos diversos que capturan la percepción, el razonamiento y la acción en el mundo físico. Sin embargo, sintetizar vídeos de alta calidad que reflejen con precisión las interacciones robóticas del mundo real sigue siendo un desafío, y la falta de un benchmark estandarizado limita las comparaciones justas y el progreso. Para abordar esta brecha, presentamos un benchmark integral de robótica, RBench, diseñado para evaluar la generación de vídeo orientada a robots en cinco dominios de tareas y cuatro embodimientos distintos. Evalúa tanto la corrección a nivel de tarea como la fidelidad visual mediante sub-métricas reproducibles, incluyendo consistencia estructural, plausibilidad física e integridad de la acción. La evaluación de 25 modelos representativos revela deficiencias significativas en la generación de comportamientos robóticos físicamente realistas. Además, el benchmark alcanza un coeficiente de correlación de Spearman de 0.96 con evaluaciones humanas, validando su efectividad. Si bien RBench proporciona la lente necesaria para identificar estas deficiencias, lograr realismo físico requiere ir más allá de la evaluación para abordar la crítica escasez de datos de entrenamiento de alta calidad. Guiados por estas observaciones, introducimos una pipeline de datos refinada de cuatro etapas, resultando en RoVid-X, el mayor conjunto de datos robótico de código abierto para generación de vídeo con 4 millones de clips de vídeo anotados, cubriendo miles de tareas y enriquecido con anotaciones exhaustivas de propiedades físicas. Colectivamente, este ecosistema sinérgico de evaluación y datos establece una base sólida para la evaluación rigurosa y el entrenamiento escalable de modelos de vídeo, acelerando la evolución de la IA corporeizada hacia la inteligencia general.
English
Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.