VideoEval-Pro: Robuuste en Realistische Evaluatie van Langdurige Videobegrip
VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
May 20, 2025
Auteurs: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI
Samenvatting
Grote multimodale modellen (LMMs) zijn recent naar voren gekomen als een krachtig hulpmiddel voor het begrijpen van lange video's (LVU), wat de ontwikkeling van gestandaardiseerde LVU-benchmarks heeft gestimuleerd om hun prestaties te evalueren. Uit ons onderzoek blijkt echter een vrij nuchtere les voor bestaande LVU-benchmarks. Ten eerste vertrouwen de meeste bestaande benchmarks sterk op meerkeuzevragen (MCQs), waarvan de evaluatieresultaten worden opgeblazen door de mogelijkheid om het juiste antwoord te raden. Ten tweede heeft een aanzienlijk deel van de vragen in deze benchmarks sterke aannames die modellen in staat stellen om direct antwoord te geven zonder zelfs maar de invoervideo te bekijken. Zo kan Gemini-1.5-Pro bijvoorbeeld een nauwkeurigheid van meer dan 50% behalen bij een willekeurig frame uit een lange video op Video-MME. We merken ook op dat het verhogen van het aantal frames niet noodzakelijkerwijs leidt tot verbetering op bestaande benchmarks, wat contra-intuïtief is. Als gevolg hiervan worden de geldigheid en robuustheid van huidige LVU-benchmarks ondermijnd, wat een betrouwbare beoordeling van het lange-video-begrip van LMM's belemmert. Om dit probleem aan te pakken, stellen we VideoEval-Pro voor, een realistische LVU-benchmark die vragen bevat met open-eind korte antwoorden, die echt begrip van de hele video vereisen. VideoEval-Pro beoordeelt zowel segmentniveau- als volledige-video-begrip door middel van perceptie- en redeneertaken. Door 21 propriëtaire en open-source video-LMMs te evalueren, concluderen we de volgende bevindingen: (1) video-LMMs vertonen drastische prestatieverliezen (>25%) bij open-eind vragen vergeleken met MCQs; (2) verrassend genoeg leiden hogere MCQ-scores niet tot hogere open-eind scores op VideoEval-Pro; (3) vergeleken met andere MCQ-benchmarks, profiteert VideoEval-Pro meer van het verhogen van het aantal invoerframes. Onze resultaten tonen aan dat VideoEval-Pro een realistischer en betrouwbaarder maatstaf biedt voor het begrijpen van lange video's, wat een duidelijker beeld geeft van de vooruitgang op dit gebied.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for
long video understanding (LVU), prompting the development of standardized LVU
benchmarks to evaluate their performance. However, our investigation reveals a
rather sober lesson for existing LVU benchmarks. First, most existing
benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation
results are inflated due to the possibility of guessing the correct answer;
Second, a significant portion of questions in these benchmarks have strong
priors to allow models to answer directly without even reading the input video.
For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame
from a long video on Video-MME. We also observe that increasing the number of
frames does not necessarily lead to improvement on existing benchmarks, which
is counterintuitive. As a result, the validity and robustness of current LVU
benchmarks are undermined, impeding a faithful assessment of LMMs' long-video
understanding capability. To tackle this problem, we propose VideoEval-Pro, a
realistic LVU benchmark containing questions with open-ended short-answer,
which truly require understanding the entire video. VideoEval-Pro assesses both
segment-level and full-video understanding through perception and reasoning
tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the
following findings: (1) video LMMs show drastic performance (>25\%) drops on
open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do
not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other
MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input
frames. Our results show that VideoEval-Pro offers a more realistic and
reliable measure of long video understanding, providing a clearer view of
progress in this domain.Summary
AI-Generated Summary