Analyse von Video-LLM-Benchmarks: Wissen, räumliche Wahrnehmung oder echtes zeitliches Verständnis?
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
May 20, 2025
Autoren: Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao
cs.AI
Zusammenfassung
Bestehende Benchmarks für das Verständnis von Videos vermischen häufig wissensbasierte und rein bildbasierte Fragen, anstatt die zeitliche Argumentationsfähigkeit eines Modells klar zu isolieren, was der entscheidende Aspekt ist, der das Verständnis von Videos von anderen Modalitäten unterscheidet. Wir identifizieren zwei Hauptprobleme, die verschleiern, ob höhere Bewertungen tatsächlich ein besseres Verständnis des dynamischen Inhalts in Videos anzeigen: (1) starke Sprachprioritäten, bei denen Modelle Fragen beantworten können, ohne das Video anzusehen; und (2) Shuffling-Invarianz, bei der Modelle bei bestimmten Fragen eine ähnliche Leistung beibehalten, selbst wenn die Videobilder zeitlich durcheinandergebracht werden. Um diese Probleme zu mildern, schlagen wir VBenchComp vor, eine automatisierte Pipeline, die Fragen in verschiedene Domänen kategorisiert: LLM-beantwortbare, semantische und zeitliche Fragen. Insbesondere können LLM-beantwortbare Fragen ohne das Ansehen des Videos beantwortet werden; semantische Fragen bleiben beantwortbar, selbst wenn die Videobilder durcheinandergebracht werden; und zeitliche Fragen erfordern das Verständnis der korrekten zeitlichen Reihenfolge der Bilder. Die übrigen Fragen werden als „Andere“ gekennzeichnet. Dies ermöglicht eine detaillierte Bewertung der verschiedenen Fähigkeiten eines Video-LLMs. Unsere Analyse zeigt nuancenschwache Modellschwächen auf, die durch traditionelle Gesamtbewertungen verborgen bleiben, und wir bieten Einblicke und Empfehlungen für die Gestaltung zukünftiger Benchmarks, die Video-LLMs genauer bewerten.
English
Existing video understanding benchmarks often conflate knowledge-based and
purely image-based questions, rather than clearly isolating a model's temporal
reasoning ability, which is the key aspect that distinguishes video
understanding from other modalities. We identify two major limitations that
obscure whether higher scores truly indicate stronger understanding of the
dynamic content in videos: (1) strong language priors, where models can answer
questions without watching the video; and (2) shuffling invariance, where
models maintain similar performance on certain questions even when video frames
are temporally shuffled. To alleviate these issues, we propose VBenchComp, an
automated pipeline that categorizes questions into different domains:
LLM-Answerable, Semantic, and Temporal. Specifically, LLM-Answerable questions
can be answered without viewing the video; Semantic questions remain answerable
even when the video frames are shuffled; and Temporal questions require
understanding the correct temporal order of frames. The rest of the questions
are labeled as Others. This can enable fine-grained evaluation of different
capabilities of a video LLM. Our analysis reveals nuanced model weaknesses that
are hidden by traditional overall scores, and we offer insights and
recommendations for designing future benchmarks that more accurately assess
video LLMs.Summary
AI-Generated Summary