ChatPaper.aiChatPaper

Cinemetrics Estável: Taxonomia Estruturada e Avaliação para Geração Profissional de Vídeos

Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

September 30, 2025
Autores: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI

Resumo

Os recentes avanços na geração de vídeos permitiram a síntese de vídeos de alta fidelidade a partir de prompts fornecidos pelo usuário. No entanto, os modelos e benchmarks existentes não conseguem capturar a complexidade e os requisitos da geração profissional de vídeos. Com esse objetivo, introduzimos o Stable Cinemetrics, um framework de avaliação estruturado que formaliza os controles de produção cinematográfica em quatro taxonomias hierárquicas e desacopladas: Configuração, Evento, Iluminação e Câmera. Juntas, essas taxonomias definem 76 nós de controle refinados, fundamentados em práticas da indústria. Utilizando essas taxonomias, construímos um benchmark de prompts alinhados com casos de uso profissionais e desenvolvemos um pipeline automatizado para categorização de prompts e geração de perguntas, permitindo a avaliação independente de cada dimensão de controle. Realizamos um estudo em larga escala com humanos, abrangendo mais de 10 modelos e 20 mil vídeos, anotados por um grupo de mais de 80 profissionais de cinema. Nossa análise, tanto em nível macro quanto micro, revela que mesmo os modelos atuais mais robustos apresentam lacunas significativas, especialmente em controles relacionados a Eventos e Câmera. Para permitir uma avaliação escalável, treinamos um avaliador automático, um modelo de visão e linguagem alinhado com anotações de especialistas, que supera as baselines zero-shot existentes. O SCINE é a primeira abordagem a situar a geração profissional de vídeos no cenário dos modelos generativos de vídeo, introduzindo taxonomias centradas em controles cinematográficos e apoiando-as com pipelines de avaliação estruturados e análises detalhadas para orientar pesquisas futuras.
English
Recent advances in video generation have enabled high-fidelity video synthesis from user provided prompts. However, existing models and benchmarks fail to capture the complexity and requirements of professional video generation. Towards that goal, we introduce Stable Cinemetrics, a structured evaluation framework that formalizes filmmaking controls into four disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera. Together, these taxonomies define 76 fine-grained control nodes grounded in industry practices. Using these taxonomies, we construct a benchmark of prompts aligned with professional use cases and develop an automated pipeline for prompt categorization and question generation, enabling independent evaluation of each control dimension. We conduct a large-scale human study spanning 10+ models and 20K videos, annotated by a pool of 80+ film professionals. Our analysis, both coarse and fine-grained reveal that even the strongest current models exhibit significant gaps, particularly in Events and Camera-related controls. To enable scalable evaluation, we train an automatic evaluator, a vision-language model aligned with expert annotations that outperforms existing zero-shot baselines. SCINE is the first approach to situate professional video generation within the landscape of video generative models, introducing taxonomies centered around cinematic controls and supporting them with structured evaluation pipelines and detailed analyses to guide future research.
PDF02October 1, 2025