RULER-Bench: Untersuchung der regelbasierten Denkfähigkeiten von Next-Level-Video-Generierungsmodellen für visuelle Basismodelle
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
December 2, 2025
papers.authors: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI
papers.abstract
Jüngste Fortschritte in der Videogenerierung ermöglichen die Synthese von Videos mit starker zeitlicher Konsistenz und beeindruckender visueller Qualität, was einen entscheidenden Schritt auf dem Weg zu visuellen Basismodellen darstellt. Um diese Videogenerierungsmodelle zu bewerten, konzentrieren sich bestehende Benchmarks primär auf Faktoren der visuellen Wahrnehmung und des Verständnisses, wie visuelle Ästhetik, Befolgung von Anweisungen und zeitliche Kohärenz. Die regelbasierten Reasoning-Fähigkeiten von Videogenerierungsmodellen bleiben jedoch weitgehend unerforscht. Obwohl neuere Studien erste Untersuchungen dazu durchgeführt haben, ob Videomodelle als Zero-Shot-Learner fungieren können, fehlt es ihnen nach wie vor an einer feingranularen Zerlegung der Reasoning-Fähigkeiten und einem umfassenden Evaluierungsprotokoll. Um diese Lücke zu schließen, stellen wir RULER-Bench vor, einen Benchmark, der die Reasoning-Fähigkeit von Videogenerierungsmodellen aus der Perspektive kognitiver Regeln bewertet. Aufbauend auf zwei grundlegenden Paradigmen – Text-zu-Video und Bild-zu-Video – umfasst RULER-Bench 40 repräsentative Aufgaben aus sechs Regelkategorien mit 622 hochwertig annotierten Instanzen. Für die Bewertung jedes generierten Videos erstellen wir eine Checkliste mit vier Metriken und nutzen GPT-3, um jeder Frage Punkte zuzuordnen, wobei wir eine 85%ige Übereinstimmung mit menschlichen Bewertungen erreichen. Umfangreiche Experimente zeigen, dass das state-of-the-art-Modell bei der Regelkohärenzmetrik nur 48,87 % erreicht, was auf erheblichen Verbesserungsbedarf bei den Reasoning-Fähigkeiten von Videomodellen der nächsten Stufe hinweist. Wir erwarten, dass die durch RULER-Bench gewonnenen Erkenntnisse die weitere Entwicklung von reasoning-bewusster Videogenerierung fördern und Videogenerierungsmodelle in Richtung einer visuellen Basisintelligenz voranbringen werden.
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.