ChatPaper.aiChatPaper

Stable Cinemetrics: Gestructureerde Taxonomie en Evaluatie voor Professionele Videogeneratie

Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

September 30, 2025
Auteurs: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI

Samenvatting

Recente vooruitgang in videogeneratie heeft hoogwaardige videosynthese mogelijk gemaakt op basis van door gebruikers verstrekte prompts. Bestaande modellen en benchmarks slagen er echter niet in de complexiteit en vereisten van professionele videogeneratie vast te leggen. Met dat doel voor ogen introduceren we Stable Cinemetrics, een gestructureerd evaluatieraamwerk dat filmtechnische controles formaliseert in vier ontvlochten, hiërarchische taxonomieën: Setup, Gebeurtenis, Belichting en Camera. Samen definiëren deze taxonomieën 76 fijnmazige controlepunten die zijn verankerd in industriële praktijken. Met behulp van deze taxonomieën construeren we een benchmark van prompts die zijn afgestemd op professionele use cases en ontwikkelen we een geautomatiseerde pipeline voor promptcategorisatie en vraaggeneratie, waardoor onafhankelijke evaluatie van elk controledimensie mogelijk wordt. We voeren een grootschalige menselijke studie uit die meer dan 10 modellen en 20.000 video's omvat, geannoteerd door een pool van meer dan 80 filmprofessionals. Onze analyse, zowel op grof als fijnmazig niveau, toont aan dat zelfs de sterkste huidige modellen aanzienlijke tekortkomingen vertonen, met name in Gebeurtenissen en Camera-gerelateerde controles. Om schaalbare evaluatie mogelijk te maken, trainen we een automatische evaluator, een vision-language model dat is afgestemd op expertannotaties en dat bestaande zero-shot-baselines overtreft. SCINE is de eerste aanpak die professionele videogeneratie plaatst binnen het landschap van videogeneratieve modellen, door taxonomieën te introduceren die zijn gericht op cinematische controles en deze te ondersteunen met gestructureerde evaluatiepijplijnen en gedetailleerde analyses om toekomstig onderzoek te begeleiden.
English
Recent advances in video generation have enabled high-fidelity video synthesis from user provided prompts. However, existing models and benchmarks fail to capture the complexity and requirements of professional video generation. Towards that goal, we introduce Stable Cinemetrics, a structured evaluation framework that formalizes filmmaking controls into four disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera. Together, these taxonomies define 76 fine-grained control nodes grounded in industry practices. Using these taxonomies, we construct a benchmark of prompts aligned with professional use cases and develop an automated pipeline for prompt categorization and question generation, enabling independent evaluation of each control dimension. We conduct a large-scale human study spanning 10+ models and 20K videos, annotated by a pool of 80+ film professionals. Our analysis, both coarse and fine-grained reveal that even the strongest current models exhibit significant gaps, particularly in Events and Camera-related controls. To enable scalable evaluation, we train an automatic evaluator, a vision-language model aligned with expert annotations that outperforms existing zero-shot baselines. SCINE is the first approach to situate professional video generation within the landscape of video generative models, introducing taxonomies centered around cinematic controls and supporting them with structured evaluation pipelines and detailed analyses to guide future research.
PDF02October 1, 2025