VideoEval-Pro : Évaluation robuste et réaliste de la compréhension de vidéos longues
VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
May 20, 2025
Auteurs: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI
Résumé
Les modèles multimodaux de grande taille (LMMs) ont récemment émergé comme un outil puissant pour la compréhension de vidéos longues (LVU), stimulant le développement de benchmarks standardisés pour évaluer leurs performances. Cependant, notre investigation révèle une leçon plutôt édifiante concernant les benchmarks LVU existants. Premièrement, la plupart des benchmarks actuels reposent fortement sur des questions à choix multiples (MCQs), dont les résultats d'évaluation sont surévalués en raison de la possibilité de deviner la bonne réponse. Deuxièmement, une part significative des questions dans ces benchmarks présente des préjugés forts, permettant aux modèles de répondre directement sans même visionner la vidéo d'entrée. Par exemple, Gemini-1.5-Pro peut atteindre une précision de plus de 50 % avec une image aléatoire d'une vidéo longue sur Video-MME. Nous observons également que l'augmentation du nombre d'images ne conduit pas nécessairement à une amélioration sur les benchmarks existants, ce qui est contre-intuitif. En conséquence, la validité et la robustesse des benchmarks LVU actuels sont compromises, entravant une évaluation fidèle des capacités de compréhension des vidéos longues par les LMMs. Pour résoudre ce problème, nous proposons VideoEval-Pro, un benchmark LVU réaliste contenant des questions à réponse courte ouverte, qui nécessitent véritablement la compréhension de l'intégralité de la vidéo. VideoEval-Pro évalue à la fois la compréhension au niveau des segments et de la vidéo entière à travers des tâches de perception et de raisonnement. En évaluant 21 LMMs vidéo propriétaires et open-source, nous concluons les observations suivantes : (1) les LMMs vidéo montrent une chute drastique de performance (>25 %) sur les questions ouvertes par rapport aux MCQs ; (2) étonnamment, des scores plus élevés aux MCQs ne conduisent pas à des scores plus élevés aux questions ouvertes sur VideoEval-Pro ; (3) comparé à d'autres benchmarks MCQs, VideoEval-Pro bénéficie davantage de l'augmentation du nombre d'images d'entrée. Nos résultats montrent que VideoEval-Pro offre une mesure plus réaliste et fiable de la compréhension des vidéos longues, fournissant une vision plus claire des progrès dans ce domaine.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for
long video understanding (LVU), prompting the development of standardized LVU
benchmarks to evaluate their performance. However, our investigation reveals a
rather sober lesson for existing LVU benchmarks. First, most existing
benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation
results are inflated due to the possibility of guessing the correct answer;
Second, a significant portion of questions in these benchmarks have strong
priors to allow models to answer directly without even reading the input video.
For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame
from a long video on Video-MME. We also observe that increasing the number of
frames does not necessarily lead to improvement on existing benchmarks, which
is counterintuitive. As a result, the validity and robustness of current LVU
benchmarks are undermined, impeding a faithful assessment of LMMs' long-video
understanding capability. To tackle this problem, we propose VideoEval-Pro, a
realistic LVU benchmark containing questions with open-ended short-answer,
which truly require understanding the entire video. VideoEval-Pro assesses both
segment-level and full-video understanding through perception and reasoning
tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the
following findings: (1) video LMMs show drastic performance (>25\%) drops on
open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do
not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other
MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input
frames. Our results show that VideoEval-Pro offers a more realistic and
reliable measure of long video understanding, providing a clearer view of
progress in this domain.Summary
AI-Generated Summary