VideoEval-Pro: Evaluación Robusta y Realista de la Comprensión de Videos Largos
VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
May 20, 2025
Autores: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI
Resumen
Los modelos multimodales grandes (LMMs, por sus siglas en inglés) han surgido recientemente como una herramienta poderosa para la comprensión de videos largos (LVU, por sus siglas en inglés), lo que ha impulsado el desarrollo de benchmarks estandarizados de LVU para evaluar su rendimiento. Sin embargo, nuestra investigación revela una lección bastante sobria sobre los benchmarks de LVU existentes. En primer lugar, la mayoría de los benchmarks actuales dependen en gran medida de preguntas de opción múltiple (MCQs, por sus siglas en inglés), cuyos resultados de evaluación están inflados debido a la posibilidad de adivinar la respuesta correcta. En segundo lugar, una parte significativa de las preguntas en estos benchmarks tiene fuertes sesgos que permiten a los modelos responder directamente sin siquiera ver el video de entrada. Por ejemplo, Gemini-1.5-Pro puede alcanzar una precisión superior al 50% con solo un fotograma aleatorio de un video largo en Video-MME. También observamos que aumentar el número de fotogramas no necesariamente conduce a una mejora en los benchmarks existentes, lo cual es contraintuitivo. Como resultado, la validez y robustez de los benchmarks de LVU actuales se ven comprometidas, obstaculizando una evaluación fiel de la capacidad de los LMMs para comprender videos largos. Para abordar este problema, proponemos VideoEval-Pro, un benchmark realista de LVU que contiene preguntas de respuesta corta abierta, las cuales verdaderamente requieren comprender el video completo. VideoEval-Pro evalúa tanto la comprensión a nivel de segmento como la comprensión del video completo a través de tareas de percepción y razonamiento. Al evaluar 21 LMMs de video, tanto propietarios como de código abierto, concluimos los siguientes hallazgos: (1) los LMMs de video muestran caídas drásticas en el rendimiento (>25%) en preguntas abiertas en comparación con las MCQs; (2) sorprendentemente, puntuaciones más altas en MCQs no conducen a puntuaciones más altas en preguntas abiertas en VideoEval-Pro; (3) en comparación con otros benchmarks de MCQs, VideoEval-Pro se beneficia más al aumentar el número de fotogramas de entrada. Nuestros resultados muestran que VideoEval-Pro ofrece una medida más realista y confiable de la comprensión de videos largos, proporcionando una visión más clara del progreso en este dominio.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for
long video understanding (LVU), prompting the development of standardized LVU
benchmarks to evaluate their performance. However, our investigation reveals a
rather sober lesson for existing LVU benchmarks. First, most existing
benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation
results are inflated due to the possibility of guessing the correct answer;
Second, a significant portion of questions in these benchmarks have strong
priors to allow models to answer directly without even reading the input video.
For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame
from a long video on Video-MME. We also observe that increasing the number of
frames does not necessarily lead to improvement on existing benchmarks, which
is counterintuitive. As a result, the validity and robustness of current LVU
benchmarks are undermined, impeding a faithful assessment of LMMs' long-video
understanding capability. To tackle this problem, we propose VideoEval-Pro, a
realistic LVU benchmark containing questions with open-ended short-answer,
which truly require understanding the entire video. VideoEval-Pro assesses both
segment-level and full-video understanding through perception and reasoning
tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the
following findings: (1) video LMMs show drastic performance (>25\%) drops on
open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do
not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other
MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input
frames. Our results show that VideoEval-Pro offers a more realistic and
reliable measure of long video understanding, providing a clearer view of
progress in this domain.Summary
AI-Generated Summary