VideoEval-Pro: Valutazione Robusta e Realistica della Comprensione di Video Lunghi
VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
May 20, 2025
Autori: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI
Abstract
I modelli multimodali di grandi dimensioni (LMM) sono recentemente emersi come uno strumento potente per la comprensione di video lunghi (LVU), stimolando lo sviluppo di benchmark LVU standardizzati per valutarne le prestazioni. Tuttavia, la nostra indagine rivela una lezione piuttosto sobria per gli attuali benchmark LVU. In primo luogo, la maggior parte dei benchmark esistenti si basa fortemente su domande a scelta multipla (MCQ), i cui risultati di valutazione sono gonfiati a causa della possibilità di indovinare la risposta corretta; in secondo luogo, una parte significativa delle domande in questi benchmark presenta forti presupposti che consentono ai modelli di rispondere direttamente senza nemmeno leggere il video di input. Ad esempio, Gemini-1.5-Pro può raggiungere un'accuratezza superiore al 50% dato un fotogramma casuale da un video lungo su Video-MME. Osserviamo inoltre che aumentare il numero di fotogrammi non porta necessariamente a un miglioramento nei benchmark esistenti, il che è controintuitivo. Di conseguenza, la validità e la robustezza degli attuali benchmark LVU sono compromesse, ostacolando una valutazione fedele della capacità dei LMM di comprendere video lunghi. Per affrontare questo problema, proponiamo VideoEval-Pro, un benchmark LVU realistico contenente domande con risposte brevi aperte, che richiedono una vera comprensione dell'intero video. VideoEval-Pro valuta sia la comprensione a livello di segmento che quella dell'intero video attraverso compiti di percezione e ragionamento. Valutando 21 LMM video proprietari e open-source, concludiamo con le seguenti osservazioni: (1) i LMM video mostrano un calo drastico delle prestazioni (>25%) nelle domande aperte rispetto alle MCQ; (2) sorprendentemente, punteggi più alti nelle MCQ non portano a punteggi più alti nelle domande aperte su VideoEval-Pro; (3) rispetto ad altri benchmark MCQ, VideoEval-Pro beneficia maggiormente dell'aumento del numero di fotogrammi di input. I nostri risultati dimostrano che VideoEval-Pro offre una misura più realistica e affidabile della comprensione di video lunghi, fornendo una visione più chiara dei progressi in questo dominio.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for
long video understanding (LVU), prompting the development of standardized LVU
benchmarks to evaluate their performance. However, our investigation reveals a
rather sober lesson for existing LVU benchmarks. First, most existing
benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation
results are inflated due to the possibility of guessing the correct answer;
Second, a significant portion of questions in these benchmarks have strong
priors to allow models to answer directly without even reading the input video.
For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame
from a long video on Video-MME. We also observe that increasing the number of
frames does not necessarily lead to improvement on existing benchmarks, which
is counterintuitive. As a result, the validity and robustness of current LVU
benchmarks are undermined, impeding a faithful assessment of LMMs' long-video
understanding capability. To tackle this problem, we propose VideoEval-Pro, a
realistic LVU benchmark containing questions with open-ended short-answer,
which truly require understanding the entire video. VideoEval-Pro assesses both
segment-level and full-video understanding through perception and reasoning
tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the
following findings: (1) video LMMs show drastic performance (>25\%) drops on
open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do
not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other
MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input
frames. Our results show that VideoEval-Pro offers a more realistic and
reliable measure of long video understanding, providing a clearer view of
progress in this domain.