ShotBench: Compreensão Cinematográfica de Nível Especialista em Modelos de Visão e Linguagem
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
June 26, 2025
Autores: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
cs.AI
Resumo
A cinematografia, a linguagem visual fundamental do cinema, é essencial para transmitir narrativa, emoção e qualidade estética. Embora os recentes Modelos de Visão e Linguagem (VLMs) demonstrem uma forte compreensão visual geral, sua proficiência em compreender a gramática cinematográfica sutil incorporada em planos individuais permanece amplamente inexplorada e carece de avaliação robusta. Essa lacuna crítica limita tanto a compreensão visual detalhada quanto a precisão da geração de vídeos assistida por IA. Para abordar isso, introduzimos o ShotBench, um benchmark abrangente projetado especificamente para o entendimento da linguagem cinematográfica. Ele apresenta mais de 3,5 mil pares de perguntas e respostas anotados por especialistas, extraídos de imagens e clipes de vídeo, meticulosamente selecionados de mais de 200 filmes aclamados (predominantemente indicados ao Oscar) e abrangendo oito dimensões-chave da cinematografia. Nossa avaliação de 24 VLMs líderes no ShotBench revela suas substanciais limitações: mesmo o modelo de melhor desempenho alcança menos de 60% de precisão média, especialmente lutando com pistas visuais detalhadas e raciocínio espacial complexo. Para catalisar avanços nesse domínio, construímos o ShotQA, um conjunto de dados multimodal em larga escala composto por aproximadamente 70 mil pares de perguntas e respostas cinematográficas. Utilizando o ShotQA, desenvolvemos o ShotVL por meio de ajuste fino supervisionado e Otimização de Política Relativa em Grupo. O ShotVL supera significativamente todos os modelos de código aberto e proprietários existentes no ShotBench, estabelecendo um novo estado da arte em desempenho. Disponibilizamos nossos modelos, dados e código em código aberto para promover progressos rápidos nessa área crucial de compreensão e geração cinematográfica impulsionada por IA.
English
Cinematography, the fundamental visual language of film, is essential for
conveying narrative, emotion, and aesthetic quality. While recent
Vision-Language Models (VLMs) demonstrate strong general visual understanding,
their proficiency in comprehending the nuanced cinematic grammar embedded
within individual shots remains largely unexplored and lacks robust evaluation.
This critical gap limits both fine-grained visual comprehension and the
precision of AI-assisted video generation. To address this, we introduce
ShotBench, a comprehensive benchmark specifically designed for cinematic
language understanding. It features over 3.5k expert-annotated QA pairs from
images and video clips, meticulously curated from over 200 acclaimed
(predominantly Oscar-nominated) films and spanning eight key cinematography
dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their
substantial limitations: even the top-performing model achieves less than 60%
average accuracy, particularly struggling with fine-grained visual cues and
complex spatial reasoning. To catalyze advancement in this domain, we construct
ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic
QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning
and Group Relative Policy Optimization. ShotVL significantly outperforms all
existing open-source and proprietary models on ShotBench, establishing new
state-of-the-art performance. We open-source our models, data, and code to
foster rapid progress in this crucial area of AI-driven cinematic understanding
and generation.