RULER-Bench: Analisi delle Capacità di Ragionamento Basato su Regole nei Modelli di Generazione Video di Prossima Generazione per l'Intelligenza Visiva Fondamentale
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
December 2, 2025
Autori: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI
Abstract
I recenti progressi nella generazione video hanno consentito la sintesi di video con una forte coerenza temporale e un'impressionante qualità visiva, segnando un passo cruciale verso i modelli fondazionali per la visione. Per valutare questi modelli di generazione video, i benchmark esistenti si concentrano principalmente su fattori legati alla percezione e comprensione visiva, come l'estetica visiva, l'aderenza alle istruzioni e la coerenza temporale. Tuttavia, le capacità di ragionamento basato su regole dei modelli di generazione video rimangono in gran parte inesplorate. Sebbene studi recenti abbiano condotto esplorazioni preliminari sulla possibilità che i modelli video funzionino come apprendisti zero-shot, essi mancano ancora di una scomposizione granulare delle capacità di ragionamento e di un protocollo di valutazione completo. Per colmare questa lacuna, introduciamo RULER-Bench, un benchmark progettato per valutare la capacità di ragionamento dei modelli di generazione video dalla prospettiva delle regole cognitive. Basato su due paradigmi fondamentali (text-to-video e image-to-video), RULER-Bench copre 40 task rappresentativi che abbracciano sei categorie di regole con 622 istanze annotate di alta qualità. Per la valutazione di ciascun video generato, costruiamo una checklist che copre quattro metriche e sfruttiamo GPT-4o per assegnare punteggi a ogni domanda, raggiungendo un'allineamento dell'85% con i giudizi umani. Esperimenti estensivi mostrano che il modello allo stato dell'arte raggiunge solo il 48.87% sulla metrica della coerenza regolare, evidenziando un margine di miglioramento significativo nella capacità di ragionamento dei modelli video di prossima generazione. Ci aspettiamo che le intuizioni ottenute da RULER-Bench facilitino ulteriori sviluppi nella generazione video consapevole del ragionamento, avvicinando i modelli di generazione video all'intelligenza fondazionale per la visione.
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.