Una Suite Molto Ampia per il Ragionamento Video

Abstract

I rapidi progressi nei modelli video si sono concentrati principalmente sulla qualità visiva, lasciando le loro capacità di ragionamento in gran parte inesplorate. Il ragionamento video fonda l'intelligenza in ambienti visivi spaziotemporalmente coerenti che vanno oltre ciò che il testo può catturare naturalmente, consentendo un ragionamento intuitivo sulla struttura spaziotemporale come continuità, interazione e causalità. Tuttavia, lo studio sistematico del ragionamento video e del suo comportamento di scaling è ostacolato dalla mancanza di dati di addestramento su larga scala. Per colmare questa lacuna, presentiamo il Very Big Video Reasoning (VBVR) Dataset, una risorsa di scala senza precedenti che comprende 200 task di ragionamento selezionati seguendo una tassonomia principiata e oltre un milione di clip video, approssimativamente tre ordini di grandezza più ampia dei dataset esistenti. Presentiamo inoltre VBVR-Bench, un framework di valutazione verificabile che va oltre il giudizio basato su modelli incorporando sistemi di punteggio basati su regole e allineati all'umano, consentendo una diagnosi riproducibile e interpretabile delle capacità di ragionamento video. Sfruttando la suite VBVR, abbiamo condotto uno dei primi studi di scaling su larga scala sul ragionamento video e osservato i primi segni di generalizzazione emergente verso task di ragionamento non visti. Nel complesso, VBVR getta le basi per la prossima fase della ricerca sul ragionamento video generalizzabile. I dati, il toolkit di benchmark e i modelli sono pubblicamente disponibili su https://video-reason.com/ .

English

Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .

Una Suite Molto Ampia per il Ragionamento Video

A Very Big Video Reasoning Suite

Abstract

Support