Une Suite Très Étendue pour le Raisonnement Vidéo

Résumé

Les progrès rapides des modèles vidéo se sont largement concentrés sur la qualité visuelle, laissant leurs capacités de raisonnement sous-explorées. Le raisonnement vidéo ancre l'intelligence dans des environnements visuels spatio-temporellement cohérents qui vont au-delà de ce que le texte peut capturer naturellement, permettant un raisonnement intuitif sur la structure spatio-temporelle telle que la continuité, l'interaction et la causalité. Cependant, l'étude systématique du raisonnement vidéo et de son comportement à l'échelle est entravée par le manque de données d'entraînement à grande échelle. Pour combler cette lacune, nous présentons le jeu de données Very Big Video Reasoning (VBVR), une ressource à grande échelle sans précédent couvrant 200 tâches de raisonnement sélectionnées selon une taxonomie raisonnée et plus d'un million de clips vidéo, soit environ trois ordres de grandeur de plus que les jeux de données existants. Nous présentons en outre VBVR-Bench, un cadre d'évaluation vérifiable qui va au-delà du jugement basé sur des modèles en intégrant des systèmes de notation alignés sur l'humain et basés sur des règles, permettant un diagnostic reproductible et interprétable des capacités de raisonnement vidéo. En tirant parti de la suite VBVR, nous menons l'une des premières études à grande échelle sur le passage à l'échelle du raisonnement vidéo et observons des signes précoces de généralisation émergente à des tâches de raisonnement non vues. Ensemble, VBVR jette les bases de la prochaine étape de la recherche sur le raisonnement vidéo généralisable. Les données, la boîte à outils de référence et les modèles sont disponibles publiquement à l'adresse https://video-reason.com/.

English

Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .

Une Suite Très Étendue pour le Raisonnement Vidéo

A Very Big Video Reasoning Suite

Résumé

Support