ShotBench: Comprensione Cinematografica di Livello Esperto nei Modelli Visione-Linguaggio

Abstract

La cinematografia, il linguaggio visivo fondamentale del cinema, è essenziale per trasmettere narrativa, emozione e qualità estetica. Sebbene i recenti Modelli Visione-Linguaggio (VLMs) dimostrino una forte comprensione visiva generale, la loro competenza nel comprendere la grammatica cinematografica sfumata incorporata nelle singole inquadrature rimane in gran parte inesplorata e manca di una valutazione robusta. Questa lacuna critica limita sia la comprensione visiva fine sia la precisione della generazione video assistita dall'IA. Per affrontare questo problema, introduciamo ShotBench, un benchmark completo specificamente progettato per la comprensione del linguaggio cinematografico. Esso presenta oltre 3.5k coppie QA annotate da esperti provenienti da immagini e clip video, accuratamente selezionate da oltre 200 film acclamati (prevalentemente nominati agli Oscar) e che coprono otto dimensioni chiave della cinematografia. La nostra valutazione di 24 VLMs leader su ShotBench rivela le loro sostanziali limitazioni: anche il modello con le migliori prestazioni raggiunge meno del 60% di accuratezza media, in particolare lottando con indizi visivi fini e ragionamenti spaziali complessi. Per catalizzare il progresso in questo dominio, costruiamo ShotQA, un ampio dataset multimodale che comprende circa 70k coppie QA cinematografiche. Sfruttando ShotQA, sviluppiamo ShotVL attraverso la messa a punto supervisionata e l'ottimizzazione delle politiche relative al gruppo. ShotVL supera significativamente tutti i modelli open-source e proprietari esistenti su ShotBench, stabilendo nuove prestazioni all'avanguardia. Rendiamo open-source i nostri modelli, dati e codice per favorire un rapido progresso in questa cruciale area della comprensione e generazione cinematografica guidata dall'IA.

English

Cinematography, the fundamental visual language of film, is essential for conveying narrative, emotion, and aesthetic quality. While recent Vision-Language Models (VLMs) demonstrate strong general visual understanding, their proficiency in comprehending the nuanced cinematic grammar embedded within individual shots remains largely unexplored and lacks robust evaluation. This critical gap limits both fine-grained visual comprehension and the precision of AI-assisted video generation. To address this, we introduce ShotBench, a comprehensive benchmark specifically designed for cinematic language understanding. It features over 3.5k expert-annotated QA pairs from images and video clips, meticulously curated from over 200 acclaimed (predominantly Oscar-nominated) films and spanning eight key cinematography dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their substantial limitations: even the top-performing model achieves less than 60% average accuracy, particularly struggling with fine-grained visual cues and complex spatial reasoning. To catalyze advancement in this domain, we construct ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning and Group Relative Policy Optimization. ShotVL significantly outperforms all existing open-source and proprietary models on ShotBench, establishing new state-of-the-art performance. We open-source our models, data, and code to foster rapid progress in this crucial area of AI-driven cinematic understanding and generation.

ShotBench: Comprensione Cinematografica di Livello Esperto nei Modelli Visione-Linguaggio

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Abstract

Support