ShotBench : Compréhension cinématographique de niveau expert dans les modèles vision-langage
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
June 26, 2025
Auteurs: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
cs.AI
Résumé
La cinématographie, langage visuel fondamental du cinéma, est essentielle pour transmettre la narration, l'émotion et la qualité esthétique. Bien que les modèles vision-langage (VLMs) récents démontrent une compréhension visuelle générale robuste, leur capacité à saisir la grammaire cinématographique nuancée intégrée dans des plans individuels reste largement inexplorée et manque d'une évaluation solide. Cette lacune critique limite à la fois la compréhension visuelle fine et la précision de la génération vidéo assistée par l'IA. Pour y remédier, nous introduisons ShotBench, un benchmark complet spécialement conçu pour la compréhension du langage cinématographique. Il comprend plus de 3 500 paires de questions-réponses annotées par des experts, issues d'images et de clips vidéo soigneusement sélectionnés parmi plus de 200 films acclamés (principalement nominés aux Oscars) et couvrant huit dimensions clés de la cinématographie. Notre évaluation de 24 VLMs de pointe sur ShotBench révèle leurs limitations substantielles : même le modèle le plus performant atteint moins de 60 % de précision moyenne, peinant particulièrement avec les indices visuels fins et le raisonnement spatial complexe. Pour catalyser les avancées dans ce domaine, nous construisons ShotQA, un ensemble de données multimodal à grande échelle comprenant environ 70 000 paires de questions-réponses cinématographiques. En exploitant ShotQA, nous développons ShotVL grâce à un réglage fin supervisé et à l'optimisation de politique relative par groupe. ShotVL surpasse significativement tous les modèles open-source et propriétaires existants sur ShotBench, établissant de nouvelles performances de pointe. Nous rendons publics nos modèles, données et code pour favoriser des progrès rapides dans ce domaine crucial de la compréhension et de la génération cinématographique pilotée par l'IA.
English
Cinematography, the fundamental visual language of film, is essential for
conveying narrative, emotion, and aesthetic quality. While recent
Vision-Language Models (VLMs) demonstrate strong general visual understanding,
their proficiency in comprehending the nuanced cinematic grammar embedded
within individual shots remains largely unexplored and lacks robust evaluation.
This critical gap limits both fine-grained visual comprehension and the
precision of AI-assisted video generation. To address this, we introduce
ShotBench, a comprehensive benchmark specifically designed for cinematic
language understanding. It features over 3.5k expert-annotated QA pairs from
images and video clips, meticulously curated from over 200 acclaimed
(predominantly Oscar-nominated) films and spanning eight key cinematography
dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their
substantial limitations: even the top-performing model achieves less than 60%
average accuracy, particularly struggling with fine-grained visual cues and
complex spatial reasoning. To catalyze advancement in this domain, we construct
ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic
QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning
and Group Relative Policy Optimization. ShotVL significantly outperforms all
existing open-source and proprietary models on ShotBench, establishing new
state-of-the-art performance. We open-source our models, data, and code to
foster rapid progress in this crucial area of AI-driven cinematic understanding
and generation.