VideoEval-Pro: Avaliação Robusta e Realista de Compreensão de Vídeos Longos

Resumo

Modelos multimodais de grande escala (LMMs) surgiram recentemente como uma ferramenta poderosa para a compreensão de vídeos longos (LVU), impulsionando o desenvolvimento de benchmarks padronizados de LVU para avaliar seu desempenho. No entanto, nossa investigação revela uma lição bastante contundente sobre os benchmarks de LVU existentes. Primeiro, a maioria dos benchmarks atuais depende fortemente de questões de múltipla escolha (MCQs), cujos resultados de avaliação são inflados devido à possibilidade de adivinhar a resposta correta; segundo, uma parcela significativa das questões nesses benchmarks possui fortes vieses que permitem que os modelos respondam diretamente sem sequer assistir ao vídeo de entrada. Por exemplo, o Gemini-1.5-Pro pode alcançar mais de 50% de precisão ao receber um frame aleatório de um vídeo longo no Video-MME. Também observamos que aumentar o número de frames não necessariamente leva a melhorias nos benchmarks existentes, o que é contraintuitivo. Como resultado, a validade e a robustez dos benchmarks de LVU atuais são comprometidas, impedindo uma avaliação fiel da capacidade de compreensão de vídeos longos dos LMMs. Para resolver esse problema, propomos o VideoEval-Pro, um benchmark realista de LVU contendo questões de resposta curta e aberta, que realmente exigem a compreensão de todo o vídeo. O VideoEval-Pro avalia tanto a compreensão em nível de segmento quanto a compreensão do vídeo completo por meio de tarefas de percepção e raciocínio. Ao avaliar 21 LMMs de vídeo proprietários e de código aberto, concluímos as seguintes descobertas: (1) os LMMs de vídeo apresentam quedas drásticas de desempenho (>25%) em questões abertas em comparação com MCQs; (2) surpreendentemente, pontuações mais altas em MCQs não levam a pontuações mais altas em questões abertas no VideoEval-Pro; (3) em comparação com outros benchmarks de MCQ, o VideoEval-Pro se beneficia mais do aumento do número de frames de entrada. Nossos resultados mostram que o VideoEval-Pro oferece uma medida mais realista e confiável da compreensão de vídeos longos, proporcionando uma visão mais clara do progresso nesse domínio.

English

Large multimodal models (LMMs) have recently emerged as a powerful tool for long video understanding (LVU), prompting the development of standardized LVU benchmarks to evaluate their performance. However, our investigation reveals a rather sober lesson for existing LVU benchmarks. First, most existing benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation results are inflated due to the possibility of guessing the correct answer; Second, a significant portion of questions in these benchmarks have strong priors to allow models to answer directly without even reading the input video. For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame from a long video on Video-MME. We also observe that increasing the number of frames does not necessarily lead to improvement on existing benchmarks, which is counterintuitive. As a result, the validity and robustness of current LVU benchmarks are undermined, impeding a faithful assessment of LMMs' long-video understanding capability. To tackle this problem, we propose VideoEval-Pro, a realistic LVU benchmark containing questions with open-ended short-answer, which truly require understanding the entire video. VideoEval-Pro assesses both segment-level and full-video understanding through perception and reasoning tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the following findings: (1) video LMMs show drastic performance (>25\%) drops on open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input frames. Our results show that VideoEval-Pro offers a more realistic and reliable measure of long video understanding, providing a clearer view of progress in this domain.

VideoEval-Pro: Avaliação Robusta e Realista de Compreensão de Vídeos Longos

VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation

Resumo

Support