ChatPaper.aiChatPaper

RULER-Bench: Onderzoek naar de regelgebaseerde redeneervaardigheden van volgende generatie videogeneratiemodellen voor visuele foundation intelligence

RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

December 2, 2025
Auteurs: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI

Samenvatting

Recente vooruitgang in videogeneratie heeft de synthese van video's met sterke temporele consistentie en indrukwekkende visuele kwaliteit mogelijk gemaakt, wat een cruciale stap betekent richting visuele foundation-modellen. Om deze videogeneratiemodellen te evalueren, richten bestaande benchmarks zich voornamelijk op factoren gerelateerd aan visuele perceptie en begrip, zoals visuele esthetiek, instructienaleving en temporele coherentie. De op regels gebaseerde redeneervaardigheden van videogeneratiemodellen blijven echter grotendeels ononderzocht. Hoewel recente studies voorlopige verkenningen hebben uitgevoerd naar de vraag of videomodellen kunnen dienen als zero-shot learners, ontbreekt het hen nog steeds aan een fijnmazige decompositie van redeneervaardigheden en een uitgebreid evaluatieprotocol. Om deze leemte op te vullen, introduceren we RULER-Bench, een benchmark ontworpen om de redeneervaardigheid van videogeneratiemodellen te evalueren vanuit het perspectief van cognitieve regels. Gebaseerd op twee fundamentele paradigma's – tekst-naar-video en beeld-naar-video – omvat RULER-Bench 40 representatieve taken verspreid over zes regelcategorieën met 622 hoogwaardig geannoteerde instanties. Voor de evaluatie van elke gegenereerde video construeren we een checklist met vier metrieken en benutten we GPT-4o om scores toe te kennen aan elke vraag, waarbij 85% overeenstemming met menselijke beoordelingen wordt bereikt. Uitgebreide experimenten tonen aan dat het state-of-the-art model slechts 48,87% behaalt op de regelcoherentiemetriek, wat duidt op aanzienlijke verbeteringsmogelijkheden in de redeneervaardigheid van videomodellen van het volgende niveau. We verwachten dat de inzichten verkregen uit RULER-Bench de verdere ontwikkeling van reasoning-aware videogeneratie zullen vergemakkelijken, en videogeneratiemodellen richting vision foundation intelligence zullen voortstuwen.
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.
PDF71December 4, 2025