ChatPaper.aiChatPaper

Une Suite Très Étendue pour le Raisonnement Vidéo

A Very Big Video Reasoning Suite

February 23, 2026
papers.authors: Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng
cs.AI

papers.abstract

Les progrès rapides des modèles vidéo se sont largement concentrés sur la qualité visuelle, laissant leurs capacités de raisonnement sous-explorées. Le raisonnement vidéo ancre l'intelligence dans des environnements visuels spatio-temporellement cohérents qui vont au-delà de ce que le texte peut capturer naturellement, permettant un raisonnement intuitif sur la structure spatio-temporelle telle que la continuité, l'interaction et la causalité. Cependant, l'étude systématique du raisonnement vidéo et de son comportement à l'échelle est entravée par le manque de données d'entraînement à grande échelle. Pour combler cette lacune, nous présentons le jeu de données Very Big Video Reasoning (VBVR), une ressource à grande échelle sans précédent couvrant 200 tâches de raisonnement sélectionnées selon une taxonomie raisonnée et plus d'un million de clips vidéo, soit environ trois ordres de grandeur de plus que les jeux de données existants. Nous présentons en outre VBVR-Bench, un cadre d'évaluation vérifiable qui va au-delà du jugement basé sur des modèles en intégrant des systèmes de notation alignés sur l'humain et basés sur des règles, permettant un diagnostic reproductible et interprétable des capacités de raisonnement vidéo. En tirant parti de la suite VBVR, nous menons l'une des premières études à grande échelle sur le passage à l'échelle du raisonnement vidéo et observons des signes précoces de généralisation émergente à des tâches de raisonnement non vues. Ensemble, VBVR jette les bases de la prochaine étape de la recherche sur le raisonnement vidéo généralisable. Les données, la boîte à outils de référence et les modèles sont disponibles publiquement à l'adresse https://video-reason.com/.
English
Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .
PDF3010February 25, 2026