Evaluación comparativa del seguimiento del estado visual en la comprensión de video multimodal

Resumen

Comprender un video requiere más que reconocer momentos aislados, ya que los humanos rastrean continuamente entidades, estados y eventos a lo largo del tiempo. Esta capacidad de seguimiento de estado visual es fundamental para la comprensión de videos, pero sigue siendo poco explorada en las evaluaciones actuales de los Modelos de Lenguaje Grandes Multimodales (MLLMs). Presentamos el punto de referencia de Seguimiento de Estado Visual (VSTAT, por sus siglas en inglés), un benchmark basado en videos diseñado para diagnosticar el seguimiento de estado visual en MLLMs. VSTAT consta de 834 clips extraídos tanto de videos sintéticos como del mundo real, emparejados con 1500 preguntas que no pueden responderse a partir de un solo fotograma o segmento corto, lo que requiere una percepción continua e integración de eventos a lo largo de toda la secuencia de video. A pesar de su sólido rendimiento en los benchmarks de video existentes, encontramos que los MLLMs de última generación obtienen resultados muy por debajo de los humanos y solo modestamente por encima de las líneas base de prioridad de respuesta. Para analizar esta brecha, comparamos las trazas de razonamiento de los MLLMs con la secuencia de video subyacente para comprender por qué y cuándo fallan en VSTAT. Observamos que los MLLMs razonan y rastrean correctamente en texto, pero fallan en percibir visualmente los eventos que necesitan rastrear. Finalmente, nuestra evaluación preliminar sugiere que los enfoques agentivos recientes, incluidos los agentes de video basados en MLLMs y los agentes de codificación, no resuelven fácilmente estos fallos, aún quedándose cortos en VSTAT.

English

Understanding a video requires more than recognizing isolated moments, as humans continuously track entities, states, and events over time. This capacity for visual state tracking is fundamental to video understanding, yet remains underexplored in current evaluations of Multimodal Large Language Models (MLLMs). We introduce Visual STAte Tracking benchmark (VSTAT), a video-based benchmark designed to diagnose visual state tracking in MLLMs. VSTAT consists of 834 clips drawn from both synthetic and real-world videos, paired with 1,500 questions that cannot be answered from any single frame or short segment, requiring continuous perception and integration of events across the entire video stream. Despite their strong performance on existing video benchmarks, we find that state-of-the-art MLLMs perform far below humans and only modestly above answer-prior baselines. To analyze this gap, we compare MLLMs' thinking traces with the underlying video stream to understand why and when MLLMs fail on VSTAT. We find that MLLMs reason and track correctly in text, but fail at visually perceiving the events they need to track. Finally, our preliminary evaluation suggests that recent agentic approaches, including MLLM-based video agents and coding agents, do not readily resolve these failures, still falling short on VSTAT.