MMBench-Video: Ein Benchmark für ganzheitliches Videoverständnis mit langen Mehrfachaufnahmen
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding
June 20, 2024
Autoren: Xinyu Fang, Kangrui Mao, Haodong Duan, Xiangyu Zhao, Yining Li, Dahua Lin, Kai Chen
cs.AI
Zusammenfassung
Das Aufkommen großer Vision-Sprach-Modelle (LVLMs) hat die Forschung zu deren Anwendungen in multimodalen Kontexten, insbesondere im Bereich des Videoverständnisses, vorangetrieben. Traditionelle Video-Frage-Antwort-Benchmarks, obwohl sie quantitative Metriken liefern, scheitern oft daran, das gesamte Spektrum des Videomaterials zu erfassen und die zeitliche Erfassung der Modelle unzureichend zu bewerten. Um diese Einschränkungen zu überwinden, stellen wir MMBench-Video vor, einen quantitativen Benchmark, der entwickelt wurde, um die Kompetenz von LVLMs im Videoverständnis streng zu bewerten. MMBench-Video integriert lange Videos von YouTube und verwendet offene Fragen, die praktische Anwendungsfälle widerspiegeln. Der Benchmark wurde sorgfältig entwickelt, um die zeitlichen Denkfähigkeiten der Modelle zu prüfen, wobei alle Fragen gemäß einer sorgfältig erstellten Fähigkeitstaxonomie von Menschen annotiert wurden. Wir verwenden GPT-4 für die automatisierte Bewertung und zeigen eine überlegene Genauigkeit und Robustheit gegenüber früheren Bewertungen auf Basis von LLMs. Unter Verwendung von MMBench-Video haben wir umfassende Bewertungen durchgeführt, die sowohl proprietäre als auch Open-Source LVLMs für Bilder und Videos umfassen. MMBench-Video ist eine wertvolle Ressource für die Forschungsgemeinschaft, die eine verbesserte Bewertung von LVLMs ermöglicht und den Fortschritt im Bereich des Videoverständnisses vorantreibt. Der Bewertungscode von MMBench-Video wird in VLMEvalKit integriert: https://github.com/open-compass/VLMEvalKit.
English
The advent of large vision-language models (LVLMs) has spurred research into
their applications in multi-modal contexts, particularly in video
understanding. Traditional VideoQA benchmarks, despite providing quantitative
metrics, often fail to encompass the full spectrum of video content and
inadequately assess models' temporal comprehension. To address these
limitations, we introduce MMBench-Video, a quantitative benchmark designed to
rigorously evaluate LVLMs' proficiency in video understanding. MMBench-Video
incorporates lengthy videos from YouTube and employs free-form questions,
mirroring practical use cases. The benchmark is meticulously crafted to probe
the models' temporal reasoning skills, with all questions human-annotated
according to a carefully constructed ability taxonomy. We employ GPT-4 for
automated assessment, demonstrating superior accuracy and robustness over
earlier LLM-based evaluations. Utilizing MMBench-Video, we have conducted
comprehensive evaluations that include both proprietary and open-source LVLMs
for images and videos. MMBench-Video stands as a valuable resource for the
research community, facilitating improved evaluation of LVLMs and catalyzing
progress in the field of video understanding. The evalutation code of
MMBench-Video will be integrated into VLMEvalKit:
https://github.com/open-compass/VLMEvalKit.Summary
AI-Generated Summary