Cinemática Estable: Taxonomía Estructurada y Evaluación para la Generación de Videos Profesionales
Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation
September 30, 2025
Autores: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI
Resumen
Los recientes avances en generación de video han permitido la síntesis de videos de alta fidelidad a partir de indicaciones proporcionadas por el usuario. Sin embargo, los modelos y puntos de referencia existentes no logran capturar la complejidad y los requisitos de la generación profesional de videos. Con ese objetivo, presentamos Stable Cinemetrics, un marco de evaluación estructurado que formaliza los controles de realización cinematográfica en cuatro taxonomías jerárquicas y desacopladas: Configuración, Evento, Iluminación y Cámara. Juntas, estas taxonomías definen 76 nodos de control detallados basados en prácticas de la industria. Utilizando estas taxonomías, construimos un conjunto de indicaciones alineadas con casos de uso profesionales y desarrollamos una canalización automatizada para la categorización de indicaciones y la generación de preguntas, lo que permite la evaluación independiente de cada dimensión de control. Realizamos un estudio a gran escala con humanos que abarca más de 10 modelos y 20,000 videos, anotados por un grupo de más de 80 profesionales del cine. Nuestro análisis, tanto general como detallado, revela que incluso los modelos actuales más sólidos presentan brechas significativas, particularmente en los controles relacionados con Eventos y Cámara. Para permitir una evaluación escalable, entrenamos un evaluador automático, un modelo de visión y lenguaje alineado con las anotaciones de expertos que supera a los puntos de referencia existentes de cero disparos. SCINE es el primer enfoque que sitúa la generación profesional de videos dentro del panorama de los modelos generativos de video, introduciendo taxonomías centradas en controles cinematográficos y respaldándolas con canalizaciones de evaluación estructuradas y análisis detallados para guiar futuras investigaciones.
English
Recent advances in video generation have enabled high-fidelity video
synthesis from user provided prompts. However, existing models and benchmarks
fail to capture the complexity and requirements of professional video
generation. Towards that goal, we introduce Stable Cinemetrics, a structured
evaluation framework that formalizes filmmaking controls into four
disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera.
Together, these taxonomies define 76 fine-grained control nodes grounded in
industry practices. Using these taxonomies, we construct a benchmark of prompts
aligned with professional use cases and develop an automated pipeline for
prompt categorization and question generation, enabling independent evaluation
of each control dimension. We conduct a large-scale human study spanning 10+
models and 20K videos, annotated by a pool of 80+ film professionals. Our
analysis, both coarse and fine-grained reveal that even the strongest current
models exhibit significant gaps, particularly in Events and Camera-related
controls. To enable scalable evaluation, we train an automatic evaluator, a
vision-language model aligned with expert annotations that outperforms existing
zero-shot baselines. SCINE is the first approach to situate professional video
generation within the landscape of video generative models, introducing
taxonomies centered around cinematic controls and supporting them with
structured evaluation pipelines and detailed analyses to guide future research.