ChatPaper.aiChatPaper

Stable Cinemetrics: Tassonomia Strutturata e Valutazione per la Generazione di Video Professionali

Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

September 30, 2025
Autori: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI

Abstract

I recenti progressi nella generazione video hanno reso possibile la sintesi di video ad alta fedeltà a partire da prompt forniti dall'utente. Tuttavia, i modelli e i benchmark esistenti non riescono a cogliere la complessità e le esigenze della generazione video professionale. Verso questo obiettivo, introduciamo Stable Cinemetrics, un framework di valutazione strutturato che formalizza i controlli cinematografici in quattro tassonomie gerarchiche e disaccoppiate: Setup, Evento, Illuminazione e Camera. Insieme, queste tassonomie definiscono 76 nodi di controllo granulari basati su pratiche del settore. Utilizzando queste tassonomie, costruiamo un benchmark di prompt allineati a casi d'uso professionali e sviluppiamo una pipeline automatizzata per la categorizzazione dei prompt e la generazione di domande, consentendo una valutazione indipendente di ciascuna dimensione di controllo. Conduciamo uno studio su larga scala che coinvolge oltre 10 modelli e 20.000 video, annotati da un pool di oltre 80 professionisti del cinema. La nostra analisi, sia a livello macro che micro, rivela che anche i modelli attualmente più avanzati presentano lacune significative, in particolare nei controlli relativi agli Eventi e alla Camera. Per consentire una valutazione scalabile, addestriamo un valutatore automatico, un modello visione-linguaggio allineato con le annotazioni degli esperti, che supera i baseline zero-shot esistenti. SCINE è il primo approccio a collocare la generazione video professionale nel panorama dei modelli generativi video, introducendo tassonomie incentrate sui controlli cinematografici e supportandole con pipeline di valutazione strutturate e analisi dettagliate per guidare la ricerca futura.
English
Recent advances in video generation have enabled high-fidelity video synthesis from user provided prompts. However, existing models and benchmarks fail to capture the complexity and requirements of professional video generation. Towards that goal, we introduce Stable Cinemetrics, a structured evaluation framework that formalizes filmmaking controls into four disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera. Together, these taxonomies define 76 fine-grained control nodes grounded in industry practices. Using these taxonomies, we construct a benchmark of prompts aligned with professional use cases and develop an automated pipeline for prompt categorization and question generation, enabling independent evaluation of each control dimension. We conduct a large-scale human study spanning 10+ models and 20K videos, annotated by a pool of 80+ film professionals. Our analysis, both coarse and fine-grained reveal that even the strongest current models exhibit significant gaps, particularly in Events and Camera-related controls. To enable scalable evaluation, we train an automatic evaluator, a vision-language model aligned with expert annotations that outperforms existing zero-shot baselines. SCINE is the first approach to situate professional video generation within the landscape of video generative models, introducing taxonomies centered around cinematic controls and supporting them with structured evaluation pipelines and detailed analyses to guide future research.
PDF02October 1, 2025