ShotBench: Comprensión Cinematográfica de Nivel Experto en Modelos de Visión-Lenguaje
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
June 26, 2025
Autores: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
cs.AI
Resumen
La cinematografía, el lenguaje visual fundamental del cine, es esencial para transmitir narrativa, emoción y calidad estética. Aunque los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) recientes demuestran una sólida comprensión visual general, su competencia para comprender la gramática cinematográfica matizada presente en tomas individuales sigue siendo en gran medida inexplorada y carece de una evaluación robusta. Esta brecha crítica limita tanto la comprensión visual detallada como la precisión de la generación de videos asistida por IA. Para abordar esto, presentamos ShotBench, un punto de referencia integral diseñado específicamente para la comprensión del lenguaje cinematográfico. Este incluye más de 3.5k pares de preguntas y respuestas anotadas por expertos a partir de imágenes y clips de video, cuidadosamente seleccionados de más de 200 películas aclamadas (principalmente nominadas al Oscar) y que abarcan ocho dimensiones clave de la cinematografía. Nuestra evaluación de 24 VLMs líderes en ShotBench revela sus limitaciones sustanciales: incluso el modelo con mejor rendimiento alcanza menos del 60% de precisión promedio, particularmente luchando con indicadores visuales detallados y razonamiento espacial complejo. Para catalizar el avance en este dominio, construimos ShotQA, un conjunto de datos multimodal a gran escala que comprende aproximadamente 70k pares de preguntas y respuestas cinematográficas. Aprovechando ShotQA, desarrollamos ShotVL mediante ajuste fino supervisado y Optimización de Política Relativa Grupal. ShotVL supera significativamente a todos los modelos existentes de código abierto y propietarios en ShotBench, estableciendo un nuevo rendimiento de vanguardia. Hacemos públicos nuestros modelos, datos y código para fomentar un progreso rápido en esta área crucial de la comprensión y generación cinematográfica impulsada por IA.
English
Cinematography, the fundamental visual language of film, is essential for
conveying narrative, emotion, and aesthetic quality. While recent
Vision-Language Models (VLMs) demonstrate strong general visual understanding,
their proficiency in comprehending the nuanced cinematic grammar embedded
within individual shots remains largely unexplored and lacks robust evaluation.
This critical gap limits both fine-grained visual comprehension and the
precision of AI-assisted video generation. To address this, we introduce
ShotBench, a comprehensive benchmark specifically designed for cinematic
language understanding. It features over 3.5k expert-annotated QA pairs from
images and video clips, meticulously curated from over 200 acclaimed
(predominantly Oscar-nominated) films and spanning eight key cinematography
dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their
substantial limitations: even the top-performing model achieves less than 60%
average accuracy, particularly struggling with fine-grained visual cues and
complex spatial reasoning. To catalyze advancement in this domain, we construct
ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic
QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning
and Group Relative Policy Optimization. ShotVL significantly outperforms all
existing open-source and proprietary models on ShotBench, establishing new
state-of-the-art performance. We open-source our models, data, and code to
foster rapid progress in this crucial area of AI-driven cinematic understanding
and generation.