Un Conjunto Muy Grande de Razonamiento en Video

Resumen

Los rápidos avances en los modelos de video se han centrado principalmente en la calidad visual, dejando sus capacidades de razonamiento poco exploradas. El razonamiento en video fundamenta la inteligencia en entornos visuales espaciotemporalmente consistentes que van más allá de lo que el texto puede capturar de forma natural, permitiendo un razonamiento intuitivo sobre la estructura espacio-temporal, como la continuidad, la interacción y la causalidad. Sin embargo, el estudio sistemático del razonamiento en video y su comportamiento de escalabilidad se ve obstaculizado por la falta de datos de entrenamiento a gran escala. Para abordar esta brecha, presentamos el Conjunto de Datos de Razonamiento en Video Muy Grande (VBVR), un recurso de escala sin precedentes que abarca 200 tareas de razonamiento curadas siguiendo una taxonomía fundamentada y más de un millón de clips de video, aproximadamente tres órdenes de magnitud más grande que los conjuntos de datos existentes. Además, presentamos VBVR-Bench, un marco de evaluación verificable que va más allá de la evaluación basada en modelos al incorporar calificadores basados en reglas y alineados con criterios humanos, permitiendo un diagnóstico reproducible e interpretable de las capacidades de razonamiento en video. Aprovechando el conjunto VBVR, realizamos uno de los primeros estudios de escalabilidad a gran escala sobre el razonamiento en video y observamos signos tempranos de generalización emergente hacia tareas de razonamiento no vistas. En conjunto, VBVR sienta las bases para la siguiente etapa de investigación en el razonamiento en video generalizable. Los datos, el kit de herramientas de evaluación comparativa y los modelos están disponibles públicamente en https://video-reason.com/.

English

Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .

Un Conjunto Muy Grande de Razonamiento en Video

A Very Big Video Reasoning Suite

Resumen

Support