ShotBench: Expertniveau Cinematisch Begrip in Vision-Taalmodellen
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
June 26, 2025
Auteurs: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
cs.AI
Samenvatting
Cinematografie, de fundamentele visuele taal van film, is essentieel voor het overbrengen van verhaal, emotie en esthetische kwaliteit. Hoewel recente Vision-Language Models (VLMs) een sterke algemene visuele begrip tonen, blijft hun vaardigheid in het begrijpen van de genuanceerde cinematische grammatica die in individuele shots is ingebed grotendeels onontgonnen en ontbreekt het aan robuuste evaluatie. Deze kritische kloof beperkt zowel fijnmazig visueel begrip als de precisie van AI-ondersteunde videogeneratie. Om dit aan te pakken, introduceren we ShotBench, een uitgebreide benchmark specifiek ontworpen voor het begrijpen van cinematische taal. Het bevat meer dan 3,5k door experts geannoteerde QA-paren van afbeeldingen en videofragmenten, zorgvuldig samengesteld uit meer dan 200 geroemde (voornamelijk Oscar-genomineerde) films en beslaat acht belangrijke cinematografische dimensies. Onze evaluatie van 24 toonaangevende VLMs op ShotBench onthult hun aanzienlijke beperkingen: zelfs het best presterende model behaalt minder dan 60% gemiddelde nauwkeurigheid, met name moeite met fijnmazige visuele aanwijzingen en complexe ruimtelijke redenering. Om vooruitgang in dit domein te stimuleren, construeren we ShotQA, een grootschalige multimodale dataset bestaande uit ongeveer 70k cinematische QA-paren. Door gebruik te maken van ShotQA, ontwikkelen we ShotVL via supervised fine-tuning en Group Relative Policy Optimization. ShotVL overtreft aanzienlijk alle bestaande open-source en propriëtaire modellen op ShotBench, en vestigt nieuwe state-of-the-art prestaties. We maken onze modellen, data en code open source om snelle vooruitgang te bevorderen in dit cruciale gebied van AI-gedreven cinematisch begrip en generatie.
English
Cinematography, the fundamental visual language of film, is essential for
conveying narrative, emotion, and aesthetic quality. While recent
Vision-Language Models (VLMs) demonstrate strong general visual understanding,
their proficiency in comprehending the nuanced cinematic grammar embedded
within individual shots remains largely unexplored and lacks robust evaluation.
This critical gap limits both fine-grained visual comprehension and the
precision of AI-assisted video generation. To address this, we introduce
ShotBench, a comprehensive benchmark specifically designed for cinematic
language understanding. It features over 3.5k expert-annotated QA pairs from
images and video clips, meticulously curated from over 200 acclaimed
(predominantly Oscar-nominated) films and spanning eight key cinematography
dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their
substantial limitations: even the top-performing model achieves less than 60%
average accuracy, particularly struggling with fine-grained visual cues and
complex spatial reasoning. To catalyze advancement in this domain, we construct
ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic
QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning
and Group Relative Policy Optimization. ShotVL significantly outperforms all
existing open-source and proprietary models on ShotBench, establishing new
state-of-the-art performance. We open-source our models, data, and code to
foster rapid progress in this crucial area of AI-driven cinematic understanding
and generation.