Desglosando los benchmarks de Video LLM: ¿Conocimiento, percepción espacial o verdadera comprensión temporal?

Resumen

Los puntos de referencia existentes para la comprensión de videos a menudo combinan preguntas basadas en conocimiento con aquellas puramente basadas en imágenes, en lugar de aislar claramente la capacidad de razonamiento temporal de un modelo, que es el aspecto clave que distingue la comprensión de videos de otras modalidades. Identificamos dos limitaciones principales que oscurecen si puntuaciones más altas indican verdaderamente una mejor comprensión del contenido dinámico en los videos: (1) fuertes sesgos lingüísticos, donde los modelos pueden responder preguntas sin ver el video; y (2) invariancia al reordenamiento, donde los modelos mantienen un rendimiento similar en ciertas preguntas incluso cuando los fotogramas del video se reorganizan temporalmente. Para mitigar estos problemas, proponemos VBenchComp, una canalización automatizada que clasifica las preguntas en diferentes dominios: Preguntas Respondibles por LLM, Semánticas y Temporales. Específicamente, las preguntas Respondibles por LLM pueden responderse sin ver el video; las preguntas Semánticas siguen siendo respondibles incluso cuando los fotogramas del video se reorganizan; y las preguntas Temporales requieren comprender el orden temporal correcto de los fotogramas. El resto de las preguntas se etiquetan como Otras. Esto permite una evaluación detallada de las diferentes capacidades de un LLM de video. Nuestro análisis revela debilidades sutiles de los modelos que quedan ocultas por las puntuaciones generales tradicionales, y ofrecemos ideas y recomendaciones para diseñar futuros puntos de referencia que evalúen con mayor precisión los LLM de video.

English

Existing video understanding benchmarks often conflate knowledge-based and purely image-based questions, rather than clearly isolating a model's temporal reasoning ability, which is the key aspect that distinguishes video understanding from other modalities. We identify two major limitations that obscure whether higher scores truly indicate stronger understanding of the dynamic content in videos: (1) strong language priors, where models can answer questions without watching the video; and (2) shuffling invariance, where models maintain similar performance on certain questions even when video frames are temporally shuffled. To alleviate these issues, we propose VBenchComp, an automated pipeline that categorizes questions into different domains: LLM-Answerable, Semantic, and Temporal. Specifically, LLM-Answerable questions can be answered without viewing the video; Semantic questions remain answerable even when the video frames are shuffled; and Temporal questions require understanding the correct temporal order of frames. The rest of the questions are labeled as Others. This can enable fine-grained evaluation of different capabilities of a video LLM. Our analysis reveals nuanced model weaknesses that are hidden by traditional overall scores, and we offer insights and recommendations for designing future benchmarks that more accurately assess video LLMs.

Desglosando los benchmarks de Video LLM: ¿Conocimiento, percepción espacial o verdadera comprensión temporal?

Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

Resumen

Support