ChatPaper.aiChatPaper

VideoEval-Pro: Robuuste en Realistische Evaluatie van Langdurige Videobegrip

VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation

May 20, 2025
Auteurs: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI

Samenvatting

Grote multimodale modellen (LMMs) zijn recent naar voren gekomen als een krachtig hulpmiddel voor het begrijpen van lange video's (LVU), wat de ontwikkeling van gestandaardiseerde LVU-benchmarks heeft gestimuleerd om hun prestaties te evalueren. Uit ons onderzoek blijkt echter een vrij nuchtere les voor bestaande LVU-benchmarks. Ten eerste vertrouwen de meeste bestaande benchmarks sterk op meerkeuzevragen (MCQs), waarvan de evaluatieresultaten worden opgeblazen door de mogelijkheid om het juiste antwoord te raden. Ten tweede heeft een aanzienlijk deel van de vragen in deze benchmarks sterke aannames die modellen in staat stellen om direct antwoord te geven zonder zelfs maar de invoervideo te bekijken. Zo kan Gemini-1.5-Pro bijvoorbeeld een nauwkeurigheid van meer dan 50% behalen bij een willekeurig frame uit een lange video op Video-MME. We merken ook op dat het verhogen van het aantal frames niet noodzakelijkerwijs leidt tot verbetering op bestaande benchmarks, wat contra-intuïtief is. Als gevolg hiervan worden de geldigheid en robuustheid van huidige LVU-benchmarks ondermijnd, wat een betrouwbare beoordeling van het lange-video-begrip van LMM's belemmert. Om dit probleem aan te pakken, stellen we VideoEval-Pro voor, een realistische LVU-benchmark die vragen bevat met open-eind korte antwoorden, die echt begrip van de hele video vereisen. VideoEval-Pro beoordeelt zowel segmentniveau- als volledige-video-begrip door middel van perceptie- en redeneertaken. Door 21 propriëtaire en open-source video-LMMs te evalueren, concluderen we de volgende bevindingen: (1) video-LMMs vertonen drastische prestatieverliezen (>25%) bij open-eind vragen vergeleken met MCQs; (2) verrassend genoeg leiden hogere MCQ-scores niet tot hogere open-eind scores op VideoEval-Pro; (3) vergeleken met andere MCQ-benchmarks, profiteert VideoEval-Pro meer van het verhogen van het aantal invoerframes. Onze resultaten tonen aan dat VideoEval-Pro een realistischer en betrouwbaarder maatstaf biedt voor het begrijpen van lange video's, wat een duidelijker beeld geeft van de vooruitgang op dit gebied.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for long video understanding (LVU), prompting the development of standardized LVU benchmarks to evaluate their performance. However, our investigation reveals a rather sober lesson for existing LVU benchmarks. First, most existing benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation results are inflated due to the possibility of guessing the correct answer; Second, a significant portion of questions in these benchmarks have strong priors to allow models to answer directly without even reading the input video. For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame from a long video on Video-MME. We also observe that increasing the number of frames does not necessarily lead to improvement on existing benchmarks, which is counterintuitive. As a result, the validity and robustness of current LVU benchmarks are undermined, impeding a faithful assessment of LMMs' long-video understanding capability. To tackle this problem, we propose VideoEval-Pro, a realistic LVU benchmark containing questions with open-ended short-answer, which truly require understanding the entire video. VideoEval-Pro assesses both segment-level and full-video understanding through perception and reasoning tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the following findings: (1) video LMMs show drastic performance (>25\%) drops on open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input frames. Our results show that VideoEval-Pro offers a more realistic and reliable measure of long video understanding, providing a clearer view of progress in this domain.

Summary

AI-Generated Summary

PDF122May 21, 2025