VideoEval-Pro: Avaliação Robusta e Realista de Compreensão de Vídeos Longos
VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
May 20, 2025
Autores: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI
Resumo
Modelos multimodais de grande escala (LMMs) surgiram recentemente como uma ferramenta poderosa para a compreensão de vídeos longos (LVU), impulsionando o desenvolvimento de benchmarks padronizados de LVU para avaliar seu desempenho. No entanto, nossa investigação revela uma lição bastante contundente sobre os benchmarks de LVU existentes. Primeiro, a maioria dos benchmarks atuais depende fortemente de questões de múltipla escolha (MCQs), cujos resultados de avaliação são inflados devido à possibilidade de adivinhar a resposta correta; segundo, uma parcela significativa das questões nesses benchmarks possui fortes vieses que permitem que os modelos respondam diretamente sem sequer assistir ao vídeo de entrada. Por exemplo, o Gemini-1.5-Pro pode alcançar mais de 50% de precisão ao receber um frame aleatório de um vídeo longo no Video-MME. Também observamos que aumentar o número de frames não necessariamente leva a melhorias nos benchmarks existentes, o que é contraintuitivo. Como resultado, a validade e a robustez dos benchmarks de LVU atuais são comprometidas, impedindo uma avaliação fiel da capacidade de compreensão de vídeos longos dos LMMs. Para resolver esse problema, propomos o VideoEval-Pro, um benchmark realista de LVU contendo questões de resposta curta e aberta, que realmente exigem a compreensão de todo o vídeo. O VideoEval-Pro avalia tanto a compreensão em nível de segmento quanto a compreensão do vídeo completo por meio de tarefas de percepção e raciocínio. Ao avaliar 21 LMMs de vídeo proprietários e de código aberto, concluímos as seguintes descobertas: (1) os LMMs de vídeo apresentam quedas drásticas de desempenho (>25%) em questões abertas em comparação com MCQs; (2) surpreendentemente, pontuações mais altas em MCQs não levam a pontuações mais altas em questões abertas no VideoEval-Pro; (3) em comparação com outros benchmarks de MCQ, o VideoEval-Pro se beneficia mais do aumento do número de frames de entrada. Nossos resultados mostram que o VideoEval-Pro oferece uma medida mais realista e confiável da compreensão de vídeos longos, proporcionando uma visão mais clara do progresso nesse domínio.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for
long video understanding (LVU), prompting the development of standardized LVU
benchmarks to evaluate their performance. However, our investigation reveals a
rather sober lesson for existing LVU benchmarks. First, most existing
benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation
results are inflated due to the possibility of guessing the correct answer;
Second, a significant portion of questions in these benchmarks have strong
priors to allow models to answer directly without even reading the input video.
For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame
from a long video on Video-MME. We also observe that increasing the number of
frames does not necessarily lead to improvement on existing benchmarks, which
is counterintuitive. As a result, the validity and robustness of current LVU
benchmarks are undermined, impeding a faithful assessment of LMMs' long-video
understanding capability. To tackle this problem, we propose VideoEval-Pro, a
realistic LVU benchmark containing questions with open-ended short-answer,
which truly require understanding the entire video. VideoEval-Pro assesses both
segment-level and full-video understanding through perception and reasoning
tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the
following findings: (1) video LMMs show drastic performance (>25\%) drops on
open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do
not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other
MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input
frames. Our results show that VideoEval-Pro offers a more realistic and
reliable measure of long video understanding, providing a clearer view of
progress in this domain.