ChatPaper.aiChatPaper

Stable Cinemetrics : Taxonomie Structurée et Évaluation pour la Génération de Vidéos Professionnelles

Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

September 30, 2025
papers.authors: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI

papers.abstract

Les récents progrès en génération vidéo ont permis la synthèse de vidéos haute fidélité à partir de prompts fournis par l'utilisateur. Cependant, les modèles et benchmarks existants ne parviennent pas à capturer la complexité et les exigences de la génération vidéo professionnelle. Dans cette optique, nous introduisons Stable Cinemetrics, un cadre d'évaluation structuré qui formalise les contrôles cinématographiques en quatre taxonomies hiérarchiques et désentrelacées : Configuration, Événement, Éclairage et Caméra. Ensemble, ces taxonomies définissent 76 nœuds de contrôle granulaires ancrés dans les pratiques de l'industrie. En utilisant ces taxonomies, nous construisons un benchmark de prompts alignés sur des cas d'usage professionnels et développons un pipeline automatisé pour la catégorisation des prompts et la génération de questions, permettant une évaluation indépendante de chaque dimension de contrôle. Nous menons une étude humaine à grande échelle couvrant plus de 10 modèles et 20 000 vidéos, annotées par un panel de plus de 80 professionnels du cinéma. Notre analyse, à la fois globale et granulaire, révèle que même les modèles actuels les plus performants présentent des lacunes significatives, notamment dans les contrôles liés aux Événements et à la Caméra. Pour permettre une évaluation scalable, nous entraînons un évaluateur automatique, un modèle vision-langage aligné avec les annotations d'experts, qui surpasse les baselines zero-shot existantes. SCINE est la première approche à situer la génération vidéo professionnelle dans le paysage des modèles génératifs vidéo, introduisant des taxonomies centrées sur les contrôles cinématographiques et les soutenant avec des pipelines d'évaluation structurés et des analyses détaillées pour guider les recherches futures.
English
Recent advances in video generation have enabled high-fidelity video synthesis from user provided prompts. However, existing models and benchmarks fail to capture the complexity and requirements of professional video generation. Towards that goal, we introduce Stable Cinemetrics, a structured evaluation framework that formalizes filmmaking controls into four disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera. Together, these taxonomies define 76 fine-grained control nodes grounded in industry practices. Using these taxonomies, we construct a benchmark of prompts aligned with professional use cases and develop an automated pipeline for prompt categorization and question generation, enabling independent evaluation of each control dimension. We conduct a large-scale human study spanning 10+ models and 20K videos, annotated by a pool of 80+ film professionals. Our analysis, both coarse and fine-grained reveal that even the strongest current models exhibit significant gaps, particularly in Events and Camera-related controls. To enable scalable evaluation, we train an automatic evaluator, a vision-language model aligned with expert annotations that outperforms existing zero-shot baselines. SCINE is the first approach to situate professional video generation within the landscape of video generative models, introducing taxonomies centered around cinematic controls and supporting them with structured evaluation pipelines and detailed analyses to guide future research.
PDF01October 1, 2025