VideoEval-Pro: Надежная и реалистичная оценка понимания длинных видеороликов
VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
May 20, 2025
Авторы: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI
Аннотация
Крупные мультимодальные модели (LMMs) недавно стали мощным инструментом для понимания длинных видео (LVU), что стимулировало разработку стандартизированных LVU-бенчмарков для оценки их производительности. Однако наше исследование выявило довольно трезвый урок для существующих LVU-бенчмарков. Во-первых, большинство существующих бенчмарков в значительной степени полагаются на вопросы с множественным выбором (MCQs), результаты оценки которых завышены из-за возможности угадать правильный ответ. Во-вторых, значительная часть вопросов в этих бенчмарках имеет сильные априорные данные, позволяющие моделям отвечать напрямую, даже не просматривая входное видео. Например, Gemini-1.5-Pro может достичь точности более 50%, получив случайный кадр из длинного видео на Video-MME. Мы также наблюдаем, что увеличение количества кадров не обязательно приводит к улучшению на существующих бенчмарках, что противоречит интуиции. В результате валидность и надежность текущих LVU-бенчмарков подрываются, что препятствует достоверной оценке способности LMMs к пониманию длинных видео. Чтобы решить эту проблему, мы предлагаем VideoEval-Pro, реалистичный LVU-бенчмарк, содержащий вопросы с открытыми краткими ответами, которые действительно требуют понимания всего видео. VideoEval-Pro оценивает как понимание на уровне сегментов, так и на уровне всего видео через задачи восприятия и рассуждения. Оценив 21 проприетарную и открытую видео-LMM, мы пришли к следующим выводам: (1) видео-LMMs демонстрируют резкое падение производительности (>25%) на вопросах с открытыми ответами по сравнению с MCQs; (2) удивительно, но более высокие баллы по MCQs не приводят к более высоким баллам по открытым вопросам на VideoEval-Pro; (3) по сравнению с другими MCQ-бенчмарками, VideoEval-Pro больше выигрывает от увеличения количества входных кадров. Наши результаты показывают, что VideoEval-Pro предлагает более реалистичную и надежную меру понимания длинных видео, предоставляя более четкое представление о прогрессе в этой области.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for
long video understanding (LVU), prompting the development of standardized LVU
benchmarks to evaluate their performance. However, our investigation reveals a
rather sober lesson for existing LVU benchmarks. First, most existing
benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation
results are inflated due to the possibility of guessing the correct answer;
Second, a significant portion of questions in these benchmarks have strong
priors to allow models to answer directly without even reading the input video.
For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame
from a long video on Video-MME. We also observe that increasing the number of
frames does not necessarily lead to improvement on existing benchmarks, which
is counterintuitive. As a result, the validity and robustness of current LVU
benchmarks are undermined, impeding a faithful assessment of LMMs' long-video
understanding capability. To tackle this problem, we propose VideoEval-Pro, a
realistic LVU benchmark containing questions with open-ended short-answer,
which truly require understanding the entire video. VideoEval-Pro assesses both
segment-level and full-video understanding through perception and reasoning
tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the
following findings: (1) video LMMs show drastic performance (>25\%) drops on
open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do
not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other
MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input
frames. Our results show that VideoEval-Pro offers a more realistic and
reliable measure of long video understanding, providing a clearer view of
progress in this domain.Summary
AI-Generated Summary