ShotBench : Compréhension cinématographique de niveau expert dans les modèles vision-langage

Résumé

La cinématographie, langage visuel fondamental du cinéma, est essentielle pour transmettre la narration, l'émotion et la qualité esthétique. Bien que les modèles vision-langage (VLMs) récents démontrent une compréhension visuelle générale robuste, leur capacité à saisir la grammaire cinématographique nuancée intégrée dans des plans individuels reste largement inexplorée et manque d'une évaluation solide. Cette lacune critique limite à la fois la compréhension visuelle fine et la précision de la génération vidéo assistée par l'IA. Pour y remédier, nous introduisons ShotBench, un benchmark complet spécialement conçu pour la compréhension du langage cinématographique. Il comprend plus de 3 500 paires de questions-réponses annotées par des experts, issues d'images et de clips vidéo soigneusement sélectionnés parmi plus de 200 films acclamés (principalement nominés aux Oscars) et couvrant huit dimensions clés de la cinématographie. Notre évaluation de 24 VLMs de pointe sur ShotBench révèle leurs limitations substantielles : même le modèle le plus performant atteint moins de 60 % de précision moyenne, peinant particulièrement avec les indices visuels fins et le raisonnement spatial complexe. Pour catalyser les avancées dans ce domaine, nous construisons ShotQA, un ensemble de données multimodal à grande échelle comprenant environ 70 000 paires de questions-réponses cinématographiques. En exploitant ShotQA, nous développons ShotVL grâce à un réglage fin supervisé et à l'optimisation de politique relative par groupe. ShotVL surpasse significativement tous les modèles open-source et propriétaires existants sur ShotBench, établissant de nouvelles performances de pointe. Nous rendons publics nos modèles, données et code pour favoriser des progrès rapides dans ce domaine crucial de la compréhension et de la génération cinématographique pilotée par l'IA.

English

Cinematography, the fundamental visual language of film, is essential for conveying narrative, emotion, and aesthetic quality. While recent Vision-Language Models (VLMs) demonstrate strong general visual understanding, their proficiency in comprehending the nuanced cinematic grammar embedded within individual shots remains largely unexplored and lacks robust evaluation. This critical gap limits both fine-grained visual comprehension and the precision of AI-assisted video generation. To address this, we introduce ShotBench, a comprehensive benchmark specifically designed for cinematic language understanding. It features over 3.5k expert-annotated QA pairs from images and video clips, meticulously curated from over 200 acclaimed (predominantly Oscar-nominated) films and spanning eight key cinematography dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their substantial limitations: even the top-performing model achieves less than 60% average accuracy, particularly struggling with fine-grained visual cues and complex spatial reasoning. To catalyze advancement in this domain, we construct ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning and Group Relative Policy Optimization. ShotVL significantly outperforms all existing open-source and proprietary models on ShotBench, establishing new state-of-the-art performance. We open-source our models, data, and code to foster rapid progress in this crucial area of AI-driven cinematic understanding and generation.

ShotBench : Compréhension cinématographique de niveau expert dans les modèles vision-langage

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Résumé

Support