스테이블 시네메트릭스: 전문가용 비디오 생성을 위한 구조화된 분류체계 및 평가
Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation
September 30, 2025
저자: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI
초록
최근 비디오 생성 기술의 발전으로 사용자가 제공한 프롬프트를 기반으로 고품질의 비디오를 합성할 수 있게 되었습니다. 그러나 기존 모델과 벤치마크는 전문적인 비디오 생성의 복잡성과 요구사항을 충분히 반영하지 못하고 있습니다. 이를 해결하기 위해 우리는 Stable Cinemetrics를 소개합니다. 이는 영화 제작 컨트롤을 네 가지 분리된 계층적 분류 체계(Setup, Event, Lighting, Camera)로 정형화한 구조화된 평가 프레임워크입니다. 이러한 분류 체계는 산업 관행에 기반한 76개의 세분화된 컨트롤 노드를 정의합니다. 이 분류 체계를 사용하여 전문가 사용 사례에 맞춘 프롬프트 벤치마크를 구성하고, 프롬프트 분류 및 질문 생성을 위한 자동화된 파이프라인을 개발하여 각 컨트롤 차원의 독립적인 평가를 가능하게 합니다. 우리는 10개 이상의 모델과 20,000개 이상의 비디오를 대상으로 80명 이상의 영화 전문가가 참여한 대규모 인간 평가를 진행했습니다. 우리의 분석, 특히 대략적 및 세부적인 분석은 현재 가장 강력한 모델들도 이벤트 및 카메라 관련 컨트롤에서 상당한 격차를 보인다는 것을 밝혀냈습니다. 확장 가능한 평가를 위해, 우리는 전문가 주석과 일치하는 비전-언어 모델인 자동 평가기를 훈련시켰으며, 이는 기존의 제로샷 베이스라인을 능가하는 성능을 보였습니다. SCINE은 전문적인 비디오 생성을 비디오 생성 모델의 맥락에 위치시키는 첫 번째 접근법으로, 영화적 컨트롤을 중심으로 한 분류 체계를 도입하고 이를 구조화된 평가 파이프라인과 상세한 분석으로 지원하여 향후 연구를 안내합니다.
English
Recent advances in video generation have enabled high-fidelity video
synthesis from user provided prompts. However, existing models and benchmarks
fail to capture the complexity and requirements of professional video
generation. Towards that goal, we introduce Stable Cinemetrics, a structured
evaluation framework that formalizes filmmaking controls into four
disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera.
Together, these taxonomies define 76 fine-grained control nodes grounded in
industry practices. Using these taxonomies, we construct a benchmark of prompts
aligned with professional use cases and develop an automated pipeline for
prompt categorization and question generation, enabling independent evaluation
of each control dimension. We conduct a large-scale human study spanning 10+
models and 20K videos, annotated by a pool of 80+ film professionals. Our
analysis, both coarse and fine-grained reveal that even the strongest current
models exhibit significant gaps, particularly in Events and Camera-related
controls. To enable scalable evaluation, we train an automatic evaluator, a
vision-language model aligned with expert annotations that outperforms existing
zero-shot baselines. SCINE is the first approach to situate professional video
generation within the landscape of video generative models, introducing
taxonomies centered around cinematic controls and supporting them with
structured evaluation pipelines and detailed analyses to guide future research.