Stable Cinemetrics: Структурированная таксономия и оценка для профессиональной генерации видео
Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation
September 30, 2025
Авторы: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani
cs.AI
Аннотация
Последние достижения в области генерации видео позволили создавать высококачественные видеоролики на основе пользовательских запросов. Однако существующие модели и тестовые наборы не учитывают сложность и требования профессиональной видеогенерации. Для решения этой задачи мы представляем Stable Cinemetrics — структурированную систему оценки, которая формализует элементы кинопроизводства в виде четырех иерархических таксономий: Сцена, Событие, Освещение и Камера. Вместе эти таксономии определяют 76 детализированных контрольных узлов, основанных на отраслевых практиках. Используя эти таксономии, мы создаем набор тестовых запросов, соответствующих профессиональным сценариям, и разрабатываем автоматизированный конвейер для категоризации запросов и генерации вопросов, что позволяет независимо оценивать каждое измерение контроля. Мы проводим масштабное исследование с участием более 80 профессионалов киноиндустрии, охватывающее более 10 моделей и 20 тысяч видеороликов. Наш анализ, как общий, так и детализированный, показывает, что даже самые современные модели демонстрируют значительные пробелы, особенно в управлении Событиями и Камерой. Для масштабируемой оценки мы обучаем автоматический оценщик — модель, объединяющую зрение и язык, которая согласуется с экспертными аннотациями и превосходит существующие базовые решения с нулевым обучением. SCINE — это первый подход, который помещает профессиональную видеогенерацию в контекст моделей генерации видео, вводя таксономии, ориентированные на кинематографические элементы управления, и поддерживая их структурированными конвейерами оценки и детальными анализами для направления будущих исследований.
English
Recent advances in video generation have enabled high-fidelity video
synthesis from user provided prompts. However, existing models and benchmarks
fail to capture the complexity and requirements of professional video
generation. Towards that goal, we introduce Stable Cinemetrics, a structured
evaluation framework that formalizes filmmaking controls into four
disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera.
Together, these taxonomies define 76 fine-grained control nodes grounded in
industry practices. Using these taxonomies, we construct a benchmark of prompts
aligned with professional use cases and develop an automated pipeline for
prompt categorization and question generation, enabling independent evaluation
of each control dimension. We conduct a large-scale human study spanning 10+
models and 20K videos, annotated by a pool of 80+ film professionals. Our
analysis, both coarse and fine-grained reveal that even the strongest current
models exhibit significant gaps, particularly in Events and Camera-related
controls. To enable scalable evaluation, we train an automatic evaluator, a
vision-language model aligned with expert annotations that outperforms existing
zero-shot baselines. SCINE is the first approach to situate professional video
generation within the landscape of video generative models, introducing
taxonomies centered around cinematic controls and supporting them with
structured evaluation pipelines and detailed analyses to guide future research.