ChatPaper.aiChatPaper

VideoEval-Pro: 강건하고 현실적인 장기 비디오 이해 평가

VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation

May 20, 2025
저자: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI

초록

대규모 멀티모달 모델(LMMs)은 최근 장기 비디오 이해(LVU)를 위한 강력한 도구로 부상하며, 이들의 성능을 평가하기 위한 표준화된 LVU 벤치마크의 개발을 촉진하고 있다. 그러나 우리의 조사는 기존 LVU 벤치마크에 대해 상당히 냉정한 교훈을 제공한다. 첫째, 대부분의 기존 벤치마크는 객관식 질문(MCQs)에 크게 의존하고 있으며, 이는 정답을 추측할 가능성으로 인해 평가 결과가 과대평가된다. 둘째, 이러한 벤치마크의 상당 부분의 질문은 모델이 입력 비디오를 읽지 않고도 직접 답할 수 있는 강력한 사전 정보를 포함하고 있다. 예를 들어, Gemini-1.5-Pro는 Video-MME에서 장기 비디오의 무작위 프레임만 주어져도 50% 이상의 정확도를 달성할 수 있다. 또한, 프레임 수를 증가시키는 것이 기존 벤치마크에서 반드시 성능 향상으로 이어지지 않는다는 점도 관찰되었는데, 이는 직관에 반하는 결과이다. 결과적으로, 현재 LVU 벤치마크의 타당성과 견고성이 훼손되어 LMMs의 장기 비디오 이해 능력을 충실히 평가하는 데 방해가 되고 있다. 이 문제를 해결하기 위해, 우리는 전체 비디오를 이해해야만 답할 수 있는 개방형 단답형 질문을 포함한 현실적인 LVU 벤치마크인 VideoEval-Pro를 제안한다. VideoEval-Pro는 지각과 추론 과제를 통해 세그먼트 수준과 전체 비디오 이해를 모두 평가한다. 21개의 독점 및 오픈소스 비디오 LMMs를 평가한 결과, 다음과 같은 결론을 도출했다: (1) 비디오 LMMs는 객관식 질문에 비해 개방형 질문에서 급격한 성능 하락(>25%)을 보인다; (2) 놀랍게도, 객관식 점수가 높다고 해서 VideoEval-Pro에서 개방형 점수가 높아지지는 않는다; (3) 다른 객관식 벤치마크와 비교했을 때, VideoEval-Pro는 입력 프레임 수를 증가시키는 것에서 더 큰 이점을 얻는다. 우리의 결과는 VideoEval-Pro가 장기 비디오 이해를 더 현실적이고 신뢰할 수 있게 측정하며, 이 분야의 진전을 더 명확히 보여준다는 것을 보여준다.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for long video understanding (LVU), prompting the development of standardized LVU benchmarks to evaluate their performance. However, our investigation reveals a rather sober lesson for existing LVU benchmarks. First, most existing benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation results are inflated due to the possibility of guessing the correct answer; Second, a significant portion of questions in these benchmarks have strong priors to allow models to answer directly without even reading the input video. For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame from a long video on Video-MME. We also observe that increasing the number of frames does not necessarily lead to improvement on existing benchmarks, which is counterintuitive. As a result, the validity and robustness of current LVU benchmarks are undermined, impeding a faithful assessment of LMMs' long-video understanding capability. To tackle this problem, we propose VideoEval-Pro, a realistic LVU benchmark containing questions with open-ended short-answer, which truly require understanding the entire video. VideoEval-Pro assesses both segment-level and full-video understanding through perception and reasoning tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the following findings: (1) video LMMs show drastic performance (>25\%) drops on open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input frames. Our results show that VideoEval-Pro offers a more realistic and reliable measure of long video understanding, providing a clearer view of progress in this domain.

Summary

AI-Generated Summary

PDF101May 21, 2025