安定したシネメトリクス:プロフェッショナルな映像生成のための構造化分類と評価
Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation
September 30, 2025
著者: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI
要旨
近年のビデオ生成技術の進展により、ユーザーが提供するプロンプトから高精細なビデオ合成が可能となった。しかし、既存のモデルとベンチマークは、プロフェッショナルなビデオ生成の複雑さと要件を十分に捉えられていない。この目標に向けて、我々はStable Cinemetricsを導入する。これは、映画制作の制御を4つの分離された階層的分類法(セットアップ、イベント、照明、カメラ)に体系化した構造化評価フレームワークである。これらの分類法は、業界の実践に基づいた76の細かい制御ノードを定義する。これらの分類法を用いて、プロフェッショナルなユースケースに沿ったプロンプトのベンチマークを構築し、プロンプトのカテゴリ化と質問生成の自動化パイプラインを開発し、各制御次元の独立した評価を可能にする。我々は、10以上のモデルと20,000以上のビデオを対象とした大規模な人間による研究を実施し、80人以上の映画プロフェッショナルによって注釈が付けられた。我々の分析は、粗粒度と細粒度の両方で、現在最も強力なモデルでさえ、特にイベントとカメラ関連の制御において大きなギャップがあることを明らかにした。スケーラブルな評価を可能にするために、専門家の注釈に基づいて調整された視覚言語モデルである自動評価器を訓練し、既存のゼロショットベースラインを上回る性能を示した。SCINEは、映画制作の制御を中心とした分類法を導入し、構造化された評価パイプラインと詳細な分析を提供することで、プロフェッショナルなビデオ生成をビデオ生成モデルの領域に位置付ける最初のアプローチである。
English
Recent advances in video generation have enabled high-fidelity video
synthesis from user provided prompts. However, existing models and benchmarks
fail to capture the complexity and requirements of professional video
generation. Towards that goal, we introduce Stable Cinemetrics, a structured
evaluation framework that formalizes filmmaking controls into four
disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera.
Together, these taxonomies define 76 fine-grained control nodes grounded in
industry practices. Using these taxonomies, we construct a benchmark of prompts
aligned with professional use cases and develop an automated pipeline for
prompt categorization and question generation, enabling independent evaluation
of each control dimension. We conduct a large-scale human study spanning 10+
models and 20K videos, annotated by a pool of 80+ film professionals. Our
analysis, both coarse and fine-grained reveal that even the strongest current
models exhibit significant gaps, particularly in Events and Camera-related
controls. To enable scalable evaluation, we train an automatic evaluator, a
vision-language model aligned with expert annotations that outperforms existing
zero-shot baselines. SCINE is the first approach to situate professional video
generation within the landscape of video generative models, introducing
taxonomies centered around cinematic controls and supporting them with
structured evaluation pipelines and detailed analyses to guide future research.