ChatPaper.aiChatPaper

Stable Cinemetrics: Strukturierte Taxonomie und Bewertung für die professionelle Videogenerierung

Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

September 30, 2025
papers.authors: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI

papers.abstract

Jüngste Fortschritte in der Videogenerierung haben die Synthese hochwertiger Videos aus benutzerdefinierten Eingabeaufforderungen ermöglicht. Allerdings erfassen bestehende Modelle und Benchmarks die Komplexität und Anforderungen der professionellen Videogenerierung nicht ausreichend. Um dieses Ziel zu erreichen, stellen wir Stable Cinemetrics vor, ein strukturiertes Bewertungsframework, das filmische Steuerungselemente in vier entkoppelte, hierarchische Taxonomien formalisiert: Setup, Ereignis, Beleuchtung und Kamera. Zusammen definieren diese Taxonomien 76 fein abgestimmte Kontrollknoten, die auf Branchenpraktiken basieren. Mit diesen Taxonomien erstellen wir einen Benchmark von Eingabeaufforderungen, die mit professionellen Anwendungsfällen abgestimmt sind, und entwickeln eine automatisierte Pipeline zur Kategorisierung von Eingabeaufforderungen und zur Fragenerstellung, die eine unabhängige Bewertung jeder Kontrolldimension ermöglicht. Wir führen eine groß angelegte menschliche Studie durch, die über 10 Modelle und 20.000 Videos umfasst, die von einem Pool von mehr als 80 Filmprofis annotiert wurden. Unsere Analyse, sowohl grob als auch fein abgestuft, zeigt, dass selbst die derzeit stärksten Modelle erhebliche Lücken aufweisen, insbesondere bei Ereignissen und kamerabezogenen Steuerungen. Um eine skalierbare Bewertung zu ermöglichen, trainieren wir einen automatischen Bewerter, ein Vision-Language-Modell, das mit Expertenannotationen abgestimmt ist und bestehende Zero-Shot-Baselines übertrifft. SCINE ist der erste Ansatz, der die professionelle Videogenerierung im Kontext von Videogenerierungsmodellen verortet, indem er Taxonomien einführt, die sich auf filmische Steuerungselemente konzentrieren, und diese mit strukturierten Bewertungspipelines und detaillierten Analysen unterstützt, um zukünftige Forschung zu leiten.
English
Recent advances in video generation have enabled high-fidelity video synthesis from user provided prompts. However, existing models and benchmarks fail to capture the complexity and requirements of professional video generation. Towards that goal, we introduce Stable Cinemetrics, a structured evaluation framework that formalizes filmmaking controls into four disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera. Together, these taxonomies define 76 fine-grained control nodes grounded in industry practices. Using these taxonomies, we construct a benchmark of prompts aligned with professional use cases and develop an automated pipeline for prompt categorization and question generation, enabling independent evaluation of each control dimension. We conduct a large-scale human study spanning 10+ models and 20K videos, annotated by a pool of 80+ film professionals. Our analysis, both coarse and fine-grained reveal that even the strongest current models exhibit significant gaps, particularly in Events and Camera-related controls. To enable scalable evaluation, we train an automatic evaluator, a vision-language model aligned with expert annotations that outperforms existing zero-shot baselines. SCINE is the first approach to situate professional video generation within the landscape of video generative models, introducing taxonomies centered around cinematic controls and supporting them with structured evaluation pipelines and detailed analyses to guide future research.
PDF01October 1, 2025