VGenST-Bench: Un benchmark para el razonamiento espacio-temporal mediante síntesis activa de video

Resumen

El razonamiento espacio-temporal es una capacidad fundamental para los Modelos de Lenguaje Grandes Multimodales (MLLMs) que operan en el mundo real. Por ello, evaluarlo con precisión se ha convertido en un desafío esencial. Sin embargo, los conjuntos de datos de referencia existentes para el razonamiento espacio-temporal se basan principalmente en conjuntos de imágenes estáticas o datos de video curados de forma pasiva, lo que limita la evaluación de capacidades de razonamiento detalladas. En este artículo, presentamos VGenST-Bench, un punto de referencia de video que emplea modelos generativos para sintetizar activamente escenarios de evaluación altamente controlados y diversos. Para construir VGenST-Bench, proponemos un flujo de trabajo multiagente que incorpora una etapa de control de calidad humana, garantizando la calidad de todos los videos y pares de preguntas y respuestas generados. Establecemos una taxonomía de video integral 3x2x2, que abarca Escala Espacial, Perspectiva y Dinámica de Escena para cubrir diversos escenarios. Además, diseñamos un conjunto jerárquico de tareas que desacopla la percepción visual de bajo nivel del razonamiento espacio-temporal de alto nivel. Al cambiar el paradigma de la curación pasiva a la síntesis activa, VGenST-Bench permite un diagnóstico detallado de la comprensión espacio-temporal en los MLLMs.

English

Spatio-temporal reasoning is a core capability for Multimodal Large Language Models (MLLMs) operating in the real world. As such, evaluating it precisely has become an essential challenge. However, existing spatio-temporal reasoning benchmark datasets primarily rely on static image sets or passively curated video data, which limits the evaluation of fine-grained reasoning capabilities. In this paper, we introduce VGenST-Bench, a video benchmark that employs generative models to actively synthesize highly controlled and diverse evaluation scenarios. To construct VGenST-Bench, we propose a multi-agent pipeline incorporating a human quality control stage, ensuring the quality of all generated videos and QA pairs. We establish a comprehensive 3x2x2 video taxonomy, encompassing Spatial Scale, Perspective, and Scene Dynamics to span diverse scenarios. Furthermore, we design a hierarchical task suite that decouples low-level visual perception from high-level spatio-temporal reasoning. By shifting the paradigm from passive curation to active synthesis, VGenST-Bench enables fine-grained diagnosis of spatio-temporal understanding in MLLMs.