ShotBench: Comprensione Cinematografica di Livello Esperto nei Modelli Visione-Linguaggio
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
June 26, 2025
Autori: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
cs.AI
Abstract
La cinematografia, il linguaggio visivo fondamentale del cinema, è essenziale per trasmettere narrativa, emozione e qualità estetica. Sebbene i recenti Modelli Visione-Linguaggio (VLMs) dimostrino una forte comprensione visiva generale, la loro competenza nel comprendere la grammatica cinematografica sfumata incorporata nelle singole inquadrature rimane in gran parte inesplorata e manca di una valutazione robusta. Questa lacuna critica limita sia la comprensione visiva fine sia la precisione della generazione video assistita dall'IA. Per affrontare questo problema, introduciamo ShotBench, un benchmark completo specificamente progettato per la comprensione del linguaggio cinematografico. Esso presenta oltre 3.5k coppie QA annotate da esperti provenienti da immagini e clip video, accuratamente selezionate da oltre 200 film acclamati (prevalentemente nominati agli Oscar) e che coprono otto dimensioni chiave della cinematografia. La nostra valutazione di 24 VLMs leader su ShotBench rivela le loro sostanziali limitazioni: anche il modello con le migliori prestazioni raggiunge meno del 60% di accuratezza media, in particolare lottando con indizi visivi fini e ragionamenti spaziali complessi. Per catalizzare il progresso in questo dominio, costruiamo ShotQA, un ampio dataset multimodale che comprende circa 70k coppie QA cinematografiche. Sfruttando ShotQA, sviluppiamo ShotVL attraverso la messa a punto supervisionata e l'ottimizzazione delle politiche relative al gruppo. ShotVL supera significativamente tutti i modelli open-source e proprietari esistenti su ShotBench, stabilendo nuove prestazioni all'avanguardia. Rendiamo open-source i nostri modelli, dati e codice per favorire un rapido progresso in questa cruciale area della comprensione e generazione cinematografica guidata dall'IA.
English
Cinematography, the fundamental visual language of film, is essential for
conveying narrative, emotion, and aesthetic quality. While recent
Vision-Language Models (VLMs) demonstrate strong general visual understanding,
their proficiency in comprehending the nuanced cinematic grammar embedded
within individual shots remains largely unexplored and lacks robust evaluation.
This critical gap limits both fine-grained visual comprehension and the
precision of AI-assisted video generation. To address this, we introduce
ShotBench, a comprehensive benchmark specifically designed for cinematic
language understanding. It features over 3.5k expert-annotated QA pairs from
images and video clips, meticulously curated from over 200 acclaimed
(predominantly Oscar-nominated) films and spanning eight key cinematography
dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their
substantial limitations: even the top-performing model achieves less than 60%
average accuracy, particularly struggling with fine-grained visual cues and
complex spatial reasoning. To catalyze advancement in this domain, we construct
ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic
QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning
and Group Relative Policy Optimization. ShotVL significantly outperforms all
existing open-source and proprietary models on ShotBench, establishing new
state-of-the-art performance. We open-source our models, data, and code to
foster rapid progress in this crucial area of AI-driven cinematic understanding
and generation.