ChatPaper.aiChatPaper

ShotBench: 비전-언어 모델에서의 전문가 수준 시네마틱 이해

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

June 26, 2025
저자: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu
cs.AI

초록

영화의 기본적인 시각적 언어인 촬영 기법은 내러티브, 감정, 미적 품질을 전달하는 데 필수적이다. 최근 비전-언어 모델(VLMs)은 강력한 일반 시각 이해 능력을 보여주지만, 개별 샷에 내재된 미묘한 영화 문법을 이해하는 데 대한 숙련도는 여전히 크게 탐구되지 않았으며, 강력한 평가가 부족하다. 이러한 중요한 격차는 세밀한 시각적 이해와 AI 지원 비디오 생성의 정밀도를 모두 제한한다. 이를 해결하기 위해, 우리는 촬영 언어 이해를 위해 특별히 설계된 포괄적인 벤치마크인 ShotBench를 소개한다. ShotBench는 200편 이상의 명성 높은(주로 오스카 후보에 오른) 영화에서 선별된 이미지와 비디오 클립으로부터 전문가가 주석을 단 3,500개 이상의 QA 쌍을 포함하며, 여덟 가지 주요 촬영 기법 차원을 아우른다. ShotBench에서 24개의 주요 VLMs을 평가한 결과, 이들의 상당한 한계가 드러났다: 최고 성능 모델조차도 평균 정확도가 60% 미만으로, 특히 세밀한 시각적 단서와 복잡한 공간 추론에서 어려움을 겪었다. 이 분야의 발전을 촉진하기 위해, 우리는 약 70,000개의 영화 QA 쌍으로 구성된 대규모 멀티모달 데이터셋인 ShotQA를 구축했다. ShotQA를 활용하여, 우리는 지도 미세 조정과 그룹 상대 정책 최적화를 통해 ShotVL을 개발했다. ShotVL은 ShotBench에서 모든 기존 오픈소스 및 독점 모델을 크게 능가하며, 새로운 최첨단 성능을 확립했다. 우리는 이 중요한 AI 기반 영화 이해 및 생성 분야의 빠른 진전을 촉진하기 위해 모델, 데이터, 코드를 오픈소스로 공개한다.
English
Cinematography, the fundamental visual language of film, is essential for conveying narrative, emotion, and aesthetic quality. While recent Vision-Language Models (VLMs) demonstrate strong general visual understanding, their proficiency in comprehending the nuanced cinematic grammar embedded within individual shots remains largely unexplored and lacks robust evaluation. This critical gap limits both fine-grained visual comprehension and the precision of AI-assisted video generation. To address this, we introduce ShotBench, a comprehensive benchmark specifically designed for cinematic language understanding. It features over 3.5k expert-annotated QA pairs from images and video clips, meticulously curated from over 200 acclaimed (predominantly Oscar-nominated) films and spanning eight key cinematography dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their substantial limitations: even the top-performing model achieves less than 60% average accuracy, particularly struggling with fine-grained visual cues and complex spatial reasoning. To catalyze advancement in this domain, we construct ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning and Group Relative Policy Optimization. ShotVL significantly outperforms all existing open-source and proprietary models on ShotBench, establishing new state-of-the-art performance. We open-source our models, data, and code to foster rapid progress in this crucial area of AI-driven cinematic understanding and generation.
PDF211June 30, 2025