RULER-Bench : Évaluation des capacités de raisonnement basé sur des règles des modèles de nouvelle génération pour la génération vidéo dans le cadre de l'intelligence fondamentale visuelle
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
December 2, 2025
papers.authors: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI
papers.abstract
Les progrès récents en génération vidéo ont permis la synthèse de vidéos présentant une forte cohérence temporelle et une qualité visuelle impressionnante, marquant une étape cruciale vers les modèles de fondation visuelle. Pour évaluer ces modèles de génération vidéo, les benchmarks existants se concentrent principalement sur des facteurs liés à la perception et à la compréhension visuelles, tels que l'esthétique visuelle, l'adhésion aux instructions et la cohérence temporelle. Cependant, les capacités de raisonnement basées sur des règles des modèles de génération vidéo restent largement inexplorées. Bien que des études récentes aient mené des explorations préliminaires sur la capacité des modèles vidéo à agir comme apprenants zero-shot, elles manquent encore d'une décomposition fine des capacités de raisonnement et d'un protocole d'évaluation complet. Pour combler cette lacune, nous présentons RULER-Bench, un benchmark conçu pour évaluer la capacité de raisonnement des modèles de génération vidéo sous l'angle des règles cognitives. Construit sur deux paradigmes fondamentaux - texte-à-vidéo et image-à-vidéo - RULER-Bench couvre 40 tâches représentatives réparties en six catégories de règles avec 622 instances annotées de haute qualité. Pour l'évaluation de chaque vidéo générée, nous construisons une checklist couvrant quatre métriques et exploitons GPT-4 pour attribuer des scores à chaque question, atteignant 85% d'alignement avec les jugements humains. Des expériences approfondies montrent que le modèle state-of-the-art n'atteint que 48,87% sur la métrique de cohérence des règles, soulignant une marge d'amélioration significative dans la capacité de raisonnement des modèles vidéo de niveau supérieur. Nous espérons que les insights obtenus grâce à RULER-Bench faciliteront le développement ultérieur de la génération vidéo consciente du raisonnement, faisant progresser les modèles de génération vidéo vers une intelligence de fondation visuelle.
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.