VideoEval-Pro: Robuste und realistische Bewertung des Verständnisses langer Videos
VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
May 20, 2025
Autoren: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) haben sich kürzlich als leistungsstarkes Werkzeug für das Verständnis langer Videos (Long Video Understanding, LVU) erwiesen, was die Entwicklung standardisierter LVU-Benchmarks zur Bewertung ihrer Leistung vorangetrieben hat. Unsere Untersuchung offenbart jedoch eine ernüchternde Erkenntnis über die bestehenden LVU-Benchmarks. Erstens stützen sich die meisten vorhandenen Benchmarks stark auf Multiple-Choice-Fragen (MCQs), deren Bewertungsergebnisse aufgrund der Möglichkeit, die richtige Antwort zu erraten, überhöht sind. Zweitens verfügt ein erheblicher Teil der Fragen in diesen Benchmarks über starke Vorannahmen, die es Modellen ermöglichen, direkt zu antworten, ohne das Eingabevideo überhaupt zu betrachten. Beispielsweise kann Gemini-1.5-Pro eine Genauigkeit von über 50 % erreichen, wenn ein zufälliges Frame aus einem langen Video auf Video-MME gegeben wird. Wir beobachten auch, dass eine Erhöhung der Anzahl der Frames nicht zwangsläufig zu einer Verbesserung in den bestehenden Benchmarks führt, was kontraintuitiv ist. Infolgedessen werden die Gültigkeit und Robustheit der aktuellen LVU-Benchmarks untergraben, was eine zuverlässige Bewertung der Fähigkeit von LMMs, lange Videos zu verstehen, behindert. Um dieses Problem zu lösen, schlagen wir VideoEval-Pro vor, einen realistischen LVU-Benchmark, der Fragen mit offenen Kurzantworten enthält, die ein echtes Verständnis des gesamten Videos erfordern. VideoEval-Pro bewertet sowohl das Verständnis auf Segmentebene als auch das vollständige Videoverständnis durch Wahrnehmungs- und Schlussfolgerungsaufgaben. Durch die Bewertung von 21 proprietären und Open-Source-Video-LMMs kommen wir zu folgenden Ergebnissen: (1) Video-LMMs zeigen drastische Leistungseinbrüche (>25 %) bei offenen Fragen im Vergleich zu MCQs; (2) überraschenderweise führen höhere MCQ-Ergebnisse nicht zu höheren offenen Antworten auf VideoEval-Pro; (3) im Vergleich zu anderen MCQ-Benchmarks profitiert VideoEval-Pro stärker von einer Erhöhung der Anzahl der Eingabeframes. Unsere Ergebnisse zeigen, dass VideoEval-Pro ein realistischeres und zuverlässigeres Maß für das Verständnis langer Videos bietet und einen klareren Einblick in die Fortschritte in diesem Bereich ermöglicht.
English
Large multimodal models (LMMs) have recently emerged as a powerful tool for
long video understanding (LVU), prompting the development of standardized LVU
benchmarks to evaluate their performance. However, our investigation reveals a
rather sober lesson for existing LVU benchmarks. First, most existing
benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation
results are inflated due to the possibility of guessing the correct answer;
Second, a significant portion of questions in these benchmarks have strong
priors to allow models to answer directly without even reading the input video.
For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame
from a long video on Video-MME. We also observe that increasing the number of
frames does not necessarily lead to improvement on existing benchmarks, which
is counterintuitive. As a result, the validity and robustness of current LVU
benchmarks are undermined, impeding a faithful assessment of LMMs' long-video
understanding capability. To tackle this problem, we propose VideoEval-Pro, a
realistic LVU benchmark containing questions with open-ended short-answer,
which truly require understanding the entire video. VideoEval-Pro assesses both
segment-level and full-video understanding through perception and reasoning
tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the
following findings: (1) video LMMs show drastic performance (>25\%) drops on
open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do
not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other
MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input
frames. Our results show that VideoEval-Pro offers a more realistic and
reliable measure of long video understanding, providing a clearer view of
progress in this domain.Summary
AI-Generated Summary