RULER-Bench: Investigando as Capacidades de Raciocínio Baseado em Regras dos Modelos de Geração de Vídeo de Próxima Geração para a Inteligência de Base Visual
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
December 2, 2025
Autores: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI
Resumo
Os avanços recentes na geração de vídeos têm permitido a síntese de vídeos com forte consistência temporal e qualidade visual impressionante, marcando um passo crucial em direção a modelos de base para visão. Para avaliar esses modelos de geração de vídeo, os benchmarks existentes concentram-se principalmente em fatores relacionados à percepção e compreensão visual, como estética visual, aderência a instruções e coerência temporal. No entanto, as capacidades de raciocínio baseado em regras dos modelos de geração de vídeo permanecem amplamente inexploradas. Embora estudos recentes tenham realizado explorações preliminares sobre se os modelos de vídeo podem servir como aprendizes de "zero-shot", eles ainda carecem de uma decomposição refinada das capacidades de raciocínio e de um protocolo abrangente de avaliação. Para preencher essa lacuna, apresentamos o RULER-Bench, um benchmark projetado para avaliar a capacidade de raciocínio dos modelos de geração de vídeo sob a perspectiva de regras cognitivas. Construído sobre dois paradigmas fundamentais - texto-para-vídeo e imagem-para-vídeo - o RULER-Bench abrange 40 tarefas representativas abrangendo seis categorias de regras, com 622 instâncias anotadas de alta qualidade. Para a avaliação de cada vídeo gerado, construímos uma lista de verificação cobrindo quatro métricas e utilizamos o GPT-3 para atribuir pontuações a cada questão, alcançando 85% de alinhamento com os julgamentos humanos. Experimentos extensivos mostram que o modelo estado da arte alcança apenas 48,87% na métrica de coerência de regras, destacando um espaço significativo para melhoria na capacidade de raciocínio dos modelos de vídeo de próxima geração. Esperamos que os insights obtidos com o RULER-Bench facilitem o desenvolvimento adicional da geração de vídeos com consciência do raciocínio, avançando os modelos de geração de vídeo em direção à inteligência de base para visão.
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.