ChatPaper.aiChatPaper

Cinemática Estable: Taxonomía Estructurada y Evaluación para la Generación de Videos Profesionales

Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

September 30, 2025
Autores: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI

Resumen

Los recientes avances en generación de video han permitido la síntesis de videos de alta fidelidad a partir de indicaciones proporcionadas por el usuario. Sin embargo, los modelos y puntos de referencia existentes no logran capturar la complejidad y los requisitos de la generación profesional de videos. Con ese objetivo, presentamos Stable Cinemetrics, un marco de evaluación estructurado que formaliza los controles de realización cinematográfica en cuatro taxonomías jerárquicas y desacopladas: Configuración, Evento, Iluminación y Cámara. Juntas, estas taxonomías definen 76 nodos de control detallados basados en prácticas de la industria. Utilizando estas taxonomías, construimos un conjunto de indicaciones alineadas con casos de uso profesionales y desarrollamos una canalización automatizada para la categorización de indicaciones y la generación de preguntas, lo que permite la evaluación independiente de cada dimensión de control. Realizamos un estudio a gran escala con humanos que abarca más de 10 modelos y 20,000 videos, anotados por un grupo de más de 80 profesionales del cine. Nuestro análisis, tanto general como detallado, revela que incluso los modelos actuales más sólidos presentan brechas significativas, particularmente en los controles relacionados con Eventos y Cámara. Para permitir una evaluación escalable, entrenamos un evaluador automático, un modelo de visión y lenguaje alineado con las anotaciones de expertos que supera a los puntos de referencia existentes de cero disparos. SCINE es el primer enfoque que sitúa la generación profesional de videos dentro del panorama de los modelos generativos de video, introduciendo taxonomías centradas en controles cinematográficos y respaldándolas con canalizaciones de evaluación estructuradas y análisis detallados para guiar futuras investigaciones.
English
Recent advances in video generation have enabled high-fidelity video synthesis from user provided prompts. However, existing models and benchmarks fail to capture the complexity and requirements of professional video generation. Towards that goal, we introduce Stable Cinemetrics, a structured evaluation framework that formalizes filmmaking controls into four disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera. Together, these taxonomies define 76 fine-grained control nodes grounded in industry practices. Using these taxonomies, we construct a benchmark of prompts aligned with professional use cases and develop an automated pipeline for prompt categorization and question generation, enabling independent evaluation of each control dimension. We conduct a large-scale human study spanning 10+ models and 20K videos, annotated by a pool of 80+ film professionals. Our analysis, both coarse and fine-grained reveal that even the strongest current models exhibit significant gaps, particularly in Events and Camera-related controls. To enable scalable evaluation, we train an automatic evaluator, a vision-language model aligned with expert annotations that outperforms existing zero-shot baselines. SCINE is the first approach to situate professional video generation within the landscape of video generative models, introducing taxonomies centered around cinematic controls and supporting them with structured evaluation pipelines and detailed analyses to guide future research.
PDF01October 1, 2025