RULER-Bench: Evaluación de las Capacidades de Razonamiento Basado en Reglas de Modelos de Generación de Vídeo de Próxima Generación para la Inteligencia de Base Visual
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
December 2, 2025
Autores: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI
Resumen
Los recientes avances en generación de vídeo han permitido sintetizar vídeos con una fuerte coherencia temporal y una calidad visual impresionante, marcando un paso crucial hacia los modelos de base de visión. Para evaluar estos modelos de generación de vídeo, los puntos de referencia existentes se centran principalmente en factores relacionados con la percepción y comprensión visual, como la estética visual, la adherencia a instrucciones y la coherencia temporal. Sin embargo, las capacidades de razonamiento basado en reglas de los modelos de generación de vídeo permanecen en gran medida inexploradas. Aunque estudios recientes han realizado exploraciones preliminares sobre si los modelos de vídeo pueden servir como aprendices de cero disparos, aún carecen de una descomposición detallada de las capacidades de razonamiento y un protocolo de evaluación integral. Para abordar esta brecha, presentamos RULER-Bench, un punto de referencia diseñado para evaluar la capacidad de razonamiento de los modelos de generación de vídeo desde la perspectiva de las reglas cognitivas. Construido sobre dos paradigmas fundamentales (texto a vídeo e imagen a vídeo), RULER-Bench cubre 40 tareas representativas que abarcan seis categorías de reglas con 622 instancias anotadas de alta calidad. Para la evaluación de cada vídeo generado, construimos una lista de verificación que cubre cuatro métricas y aprovechamos GPT-4o para asignar puntuaciones a cada pregunta, logrando un 85% de alineación con los juicios humanos. Experimentos exhaustivos muestran que el modelo de vanguardia alcanza solo un 48.87% en la métrica de coherencia de reglas, destacando un margen significativo de mejora en la capacidad de razonamiento de los modelos de vídeo de próxima generación. Esperamos que la perspectiva obtenida de RULER-Bench facilite el desarrollo futuro de la generación de vídeo consciente del razonamiento, avanzando los modelos de generación de vídeo hacia la inteligencia de base visual.
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.