ShotBench: Experten-Level-Verständnis für Filmisches in Vision-Sprache-Modellen
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
June 26, 2025
Autoren: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
cs.AI
Zusammenfassung
Die Kinematografie, die grundlegende visuelle Sprache des Films, ist entscheidend für die Vermittlung von Handlung, Emotion und ästhetischer Qualität. Obwohl aktuelle Vision-Language-Modelle (VLMs) ein starkes allgemeines visuelles Verständnis demonstrieren, bleibt ihre Fähigkeit, die nuancenreiche filmische Grammatik innerhalb einzelner Einstellungen zu erfassen, weitgehend unerforscht und mangelt es an einer robusten Bewertung. Diese kritische Lücke begrenzt sowohl das fein abgestimmte visuelle Verständnis als auch die Präzision der KI-gestützten Videogenerierung. Um dies zu beheben, führen wir ShotBench ein, einen umfassenden Benchmark, der speziell für das Verständnis der filmischen Sprache entwickelt wurde. Er umfasst über 3.500 von Experten annotierte Frage-Antwort-Paare aus Bildern und Videoclips, die sorgfältig aus über 200 renommierten (vorwiegend Oscar-nominierten) Filmen ausgewählt wurden und acht zentrale Dimensionen der Kinematografie abdecken. Unsere Bewertung von 24 führenden VLMs auf ShotBench offenbart deren erhebliche Einschränkungen: Selbst das leistungsstärkste Modell erreicht eine durchschnittliche Genauigkeit von weniger als 60 %, insbesondere bei fein abgestimmten visuellen Hinweisen und komplexem räumlichem Denken. Um Fortschritte in diesem Bereich voranzutreiben, erstellen wir ShotQA, einen groß angelegten multimodalen Datensatz mit etwa 70.000 filmischen Frage-Antwort-Paaren. Mithilfe von ShotQA entwickeln wir ShotVL durch überwachtes Feinabstimmen und Group Relative Policy Optimization. ShotVL übertrifft alle bestehenden Open-Source- und proprietären Modelle auf ShotBench deutlich und setzt neue Maßstäbe in der Leistungsfähigkeit. Wir stellen unsere Modelle, Daten und Code als Open Source zur Verfügung, um schnelle Fortschritte in diesem entscheidenden Bereich der KI-gestützten filmischen Verständnis- und Generierung zu fördern.
English
Cinematography, the fundamental visual language of film, is essential for
conveying narrative, emotion, and aesthetic quality. While recent
Vision-Language Models (VLMs) demonstrate strong general visual understanding,
their proficiency in comprehending the nuanced cinematic grammar embedded
within individual shots remains largely unexplored and lacks robust evaluation.
This critical gap limits both fine-grained visual comprehension and the
precision of AI-assisted video generation. To address this, we introduce
ShotBench, a comprehensive benchmark specifically designed for cinematic
language understanding. It features over 3.5k expert-annotated QA pairs from
images and video clips, meticulously curated from over 200 acclaimed
(predominantly Oscar-nominated) films and spanning eight key cinematography
dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their
substantial limitations: even the top-performing model achieves less than 60%
average accuracy, particularly struggling with fine-grained visual cues and
complex spatial reasoning. To catalyze advancement in this domain, we construct
ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic
QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning
and Group Relative Policy Optimization. ShotVL significantly outperforms all
existing open-source and proprietary models on ShotBench, establishing new
state-of-the-art performance. We open-source our models, data, and code to
foster rapid progress in this crucial area of AI-driven cinematic understanding
and generation.