ChatPaper.aiChatPaper

ShotBench: ビジョン・ランゲージモデルにおける専門家レベルの映画的理解

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

June 26, 2025
著者: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
cs.AI

要旨

映画の基本的な視覚言語であるシネマトグラフィは、物語、感情、美的品質を伝えるために不可欠である。近年のVision-Languageモデル(VLM)は、一般的な視覚理解において高い能力を示しているが、個々のショットに埋め込まれた微妙な映画的文法を理解する能力については、ほとんど検証されておらず、堅牢な評価が欠如している。この重要なギャップは、細かい視覚理解とAI支援による映像生成の精度の両方を制限している。この問題に対処するため、我々は映画言語理解に特化した包括的なベンチマークであるShotBenchを導入する。ShotBenchは、200本以上の高評価を受けた(主にアカデミー賞ノミネート作品の)映画から厳選された3,500以上の専門家による注釈付きQAペアを特徴とし、8つの主要なシネマトグラフィ次元にわたる。ShotBenchにおける24の主要なVLMの評価は、それらの大きな限界を明らかにしている:最高性能のモデルでさえ、平均精度が60%未満であり、特に細かい視覚的キューと複雑な空間推論に苦戦している。この領域の進展を促進するため、我々は約70,000の映画的QAペアからなる大規模なマルチモーダルデータセットShotQAを構築した。ShotQAを活用し、教師ありファインチューニングとGroup Relative Policy Optimizationを通じてShotVLを開発した。ShotVLは、ShotBenchにおいてすべての既存のオープンソースおよびプロプライエタリモデルを大幅に上回り、新たな最先端の性能を確立した。我々は、AI駆動の映画理解と生成のこの重要な領域における急速な進展を促進するため、モデル、データ、およびコードをオープンソースとして公開する。
English
Cinematography, the fundamental visual language of film, is essential for conveying narrative, emotion, and aesthetic quality. While recent Vision-Language Models (VLMs) demonstrate strong general visual understanding, their proficiency in comprehending the nuanced cinematic grammar embedded within individual shots remains largely unexplored and lacks robust evaluation. This critical gap limits both fine-grained visual comprehension and the precision of AI-assisted video generation. To address this, we introduce ShotBench, a comprehensive benchmark specifically designed for cinematic language understanding. It features over 3.5k expert-annotated QA pairs from images and video clips, meticulously curated from over 200 acclaimed (predominantly Oscar-nominated) films and spanning eight key cinematography dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their substantial limitations: even the top-performing model achieves less than 60% average accuracy, particularly struggling with fine-grained visual cues and complex spatial reasoning. To catalyze advancement in this domain, we construct ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning and Group Relative Policy Optimization. ShotVL significantly outperforms all existing open-source and proprietary models on ShotBench, establishing new state-of-the-art performance. We open-source our models, data, and code to foster rapid progress in this crucial area of AI-driven cinematic understanding and generation.
PDF211June 30, 2025