ChatPaper.aiChatPaper

RULER-Bench: 비전 파운데이션 인텔리전스를 위한 차세대 비디오 생성 모델의 규칙 기반 추론 능력 평가

RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

December 2, 2025
저자: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI

초록

최근 비디오 생성 기술의 발전은 강한 시간적 일관성과 인상적인 시각적 품질을 갖춘 비디오 합성을 가능하게 하여 비전 기반 모델 개발에 중요한 진전을 이루었습니다. 이러한 비디오 생성 모델을 평가하기 위해 기존 벤치마크는 주로 시각적 심미성, 지시 사항 준수도, 시간적 일관성과 같은 시각적 인식 및 이해 관련 요소에 중점을 둡니다. 그러나 비디오 생성 모델의 규칙 기반 추론 능력은 여전히 크게 탐구되지 않고 있습니다. 최근 연구들이 비디오 모델이 제로샷 학습자로 기능할 수 있는지에 대한 예비 탐색을 수행했지만, 여전히 추론 능력에 대한 세분화된 분해와 포괄적인 평가 프로토콜이 부족한 실정입니다. 이러한 격차를 해결하기 위해 우리는 인지 규칙 관점에서 비디오 생성 모델의 추론 능력을 평가하도록 설계된 벤치마크인 RULER-Bench를 소개합니다. 텍스트-비디오 및 이미지-비디오라는 두 가지 기본 패러다임을 기반으로 구축된 RULER-Bench는 6개 규칙 범주에 걸친 40개의 대표적인 과제와 622개의 고품질 주석 인스턴스를 포함합니다. 생성된 각 비디오 평가를 위해 우리는 4가지 메트릭을 포함하는 체크리스트를 구성하고 GPT-4o를 활용하여 각 질문에 점수를 부여하며, 이는 인간 평가와 85% 일치율을 달성했습니다. 대규모 실험 결과에 따르면 최첨단 모델이 규칙 일관성 메트릭에서 48.87%에 그쳐 다음 세대 비디오 모델의 추론 능력 향상을 위한 상당한 개선 여지가 있음을 확인했습니다. RULER-Bench에서 얻은 통찰이 추론 인지 비디오 생성의 추가 발전을 촉진하고 비디오 생성 모델이 비전 기반 인텔리전스로 나아가는 데 기여할 것으로 기대합니다.
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.
PDF71December 4, 2025