ChatPaper.aiChatPaper

MMBench-Video: Ein Benchmark für ganzheitliches Videoverständnis mit langen Mehrfachaufnahmen

MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

June 20, 2024
Autoren: Xinyu Fang, Kangrui Mao, Haodong Duan, Xiangyu Zhao, Yining Li, Dahua Lin, Kai Chen
cs.AI

Zusammenfassung

Das Aufkommen großer Vision-Sprach-Modelle (LVLMs) hat die Forschung zu deren Anwendungen in multimodalen Kontexten, insbesondere im Bereich des Videoverständnisses, vorangetrieben. Traditionelle Video-Frage-Antwort-Benchmarks, obwohl sie quantitative Metriken liefern, scheitern oft daran, das gesamte Spektrum des Videomaterials zu erfassen und die zeitliche Erfassung der Modelle unzureichend zu bewerten. Um diese Einschränkungen zu überwinden, stellen wir MMBench-Video vor, einen quantitativen Benchmark, der entwickelt wurde, um die Kompetenz von LVLMs im Videoverständnis streng zu bewerten. MMBench-Video integriert lange Videos von YouTube und verwendet offene Fragen, die praktische Anwendungsfälle widerspiegeln. Der Benchmark wurde sorgfältig entwickelt, um die zeitlichen Denkfähigkeiten der Modelle zu prüfen, wobei alle Fragen gemäß einer sorgfältig erstellten Fähigkeitstaxonomie von Menschen annotiert wurden. Wir verwenden GPT-4 für die automatisierte Bewertung und zeigen eine überlegene Genauigkeit und Robustheit gegenüber früheren Bewertungen auf Basis von LLMs. Unter Verwendung von MMBench-Video haben wir umfassende Bewertungen durchgeführt, die sowohl proprietäre als auch Open-Source LVLMs für Bilder und Videos umfassen. MMBench-Video ist eine wertvolle Ressource für die Forschungsgemeinschaft, die eine verbesserte Bewertung von LVLMs ermöglicht und den Fortschritt im Bereich des Videoverständnisses vorantreibt. Der Bewertungscode von MMBench-Video wird in VLMEvalKit integriert: https://github.com/open-compass/VLMEvalKit.
English
The advent of large vision-language models (LVLMs) has spurred research into their applications in multi-modal contexts, particularly in video understanding. Traditional VideoQA benchmarks, despite providing quantitative metrics, often fail to encompass the full spectrum of video content and inadequately assess models' temporal comprehension. To address these limitations, we introduce MMBench-Video, a quantitative benchmark designed to rigorously evaluate LVLMs' proficiency in video understanding. MMBench-Video incorporates lengthy videos from YouTube and employs free-form questions, mirroring practical use cases. The benchmark is meticulously crafted to probe the models' temporal reasoning skills, with all questions human-annotated according to a carefully constructed ability taxonomy. We employ GPT-4 for automated assessment, demonstrating superior accuracy and robustness over earlier LLM-based evaluations. Utilizing MMBench-Video, we have conducted comprehensive evaluations that include both proprietary and open-source LVLMs for images and videos. MMBench-Video stands as a valuable resource for the research community, facilitating improved evaluation of LVLMs and catalyzing progress in the field of video understanding. The evalutation code of MMBench-Video will be integrated into VLMEvalKit: https://github.com/open-compass/VLMEvalKit.

Summary

AI-Generated Summary

PDF341December 2, 2024