ChatPaper.aiChatPaper

매우 거대한 비디오 추론 스위트

A Very Big Video Reasoning Suite

February 23, 2026
저자: Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng
cs.AI

초록

비디오 모델의 급속한 발전은 주로 시각적 품질에 집중되어 왔으며, 그 추론 능력은 충분히 탐구되지 못했습니다. 비디오 추론은 텍스트가 자연스럽게 포착할 수 있는 범위를 넘어서는 시공간적으로 일관된 시각적 환경에 인텔리전스를 기반으로 하여, 연속성, 상호작용, 인과관계와 같은 시공간 구조에 대한 직관적 추론을 가능하게 합니다. 그러나 체계적으로 비디오 추론과 그 확장 양상을 연구하는 것은 대규모 훈련 데이터의 부족으로 어려움을 겪고 있습니다. 이러한 격차를 해결하기 위해 우리는 매우 큰 규모의 비디오 추론(VBVR) 데이터셋을 소개합니다. 이는 체계적인 분류 체계를 따르는 200개의 선별된 추론 과제와 100만 개 이상의 비디오 클립으로 구성된 전례 없는 대규모 자원으로, 기존 데이터셋보다 약 3배 이상 큽니다. 우리는 더 나아가 VBVR-Bench를 제시하는데, 이는 모델 기반 평가를 넘어 규칙 기반의 인간 정렬 채점 시스템을 통합하여 재현 가능하고 해석 가능한 비디오 추론 능력 진단을 가능하게 하는 검증 가능한 평가 프레임워크입니다. VBVR 제품군을 활용하여 우리는 비디오 추론에 대한 최초의 대규모 확장 연구 중 하나를 수행했으며, 보지 못한 추론 과제에 대한 초기 형태의 일반화 징후를 관찰했습니다. 종합적으로, VBVR은 일반화 가능한 비디오 추론 연구의 다음 단계를 위한 기반을 마련합니다. 데이터, 벤치마크 툴킷 및 모델은 https://video-reason.com/ 에서 공개되어 있습니다.
English
Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .
PDF3010February 25, 2026