EvalVerse: Конвейерно-осведомленный и экспертно-калиброванный бенчмаркинг для профессиональной генерации кинематографического видео

Аннотация

Стремительная эволюция генеративных фундаментальных моделей видео вывела эту область к созданию кинематографического синтеза профессионального уровня. Для достижения такого высокого качества сообщество переходит к обучению с подкреплением (RL) и агентным рабочим процессам. Однако ключевым узким местом стала надежная оценка. Существующие бенчмарки преимущественно оценивают «правильно ли это» (базовое следование подсказке), но принципиально игнорируют «хорошо ли это» (кинематографическое качество, актерскую игру и эстетику). Кроме того, современные автоматизированные метрики лишены необходимой предметной строгости для предоставления надежных сигналов, что создает серьезный разрыв в доверии между человеческим эстетическим восприятием и машинной оценкой. Чтобы преодолеть этот разрыв, мы представляем EvalVerse — комплексную, учитывающую конвейер и откалиброванную экспертами оценочную среду. Мы рассматриваем оценку генерации видео не просто как инженерную задачу, а как фундаментальную научную проблему: систематическую оцифровку субъективного кинематографического опыта. Во-первых, мы организуем предметные знания в таксономию оценки, согласованную с профессиональным кинопроизводственным процессом (препродакшн, продакшн и постпродакшн). Во-вторых, мы сводим экспертные суждения в курируемый набор данных с крупномасштабной человеческой разметкой. В-третьих, мы внедряем эти знания в визуально-языковые модели (VLM) с помощью откалиброванной экспертами стратегии тонкой настройки, позволяя VLM выполнять явное рассуждение по цепочке мыслей (Chain-of-Thought). По сравнению с предыдущими работами, EvalVerse не только сохраняет совместимость с фундаментальными метриками «правильности», но и существенно расширяет критерии до «качества», а также охват задач до сложных многосценовых последовательностей и аудиовизуальной интеграции. Следовательно, предоставляя детальные диагностические сигналы, EvalVerse выходит за рамки статической таблицы лидеров и создает фундаментальную инфраструктуру для будущих работ, таких как модели вознаграждения и оценочные агенты.

English

The rapid evolution of generative video foundation models has propelled the field toward professional-grade cinematic synthesis. To achieve such demanding quality, the community transitions towards Reinforcement Learning (RL) and agentic workflows. However, reliable evaluation has emerged as a critical bottleneck. Existing benchmarks predominantly evaluate ''whether it is right'' (basic prompt-following) while fundamentally neglecting ''whether it is good'' (cinematic quality, acting, and aesthetics). Furthermore, current automated metrics lack the domain-specific rigor required to provide trustworthy signals, creating a severe credibility gap between human aesthetic perception and machine scoring. To bridge this gap, we introduce EvalVerse, a comprehensive, pipeline-aware, and expert-calibrated evaluation framework. We treat video generation assessment not merely as an engineering task, but as a core scientific problem: the systematic digitization of subjective cinematic expertise. First, we organize domain knowledge into an evaluation taxonomy aligned with the professional filmmaking workflow (pre-production, production, and post-production). Second, we distill human expert judgments into a curated dataset with large-scale human annotations. Third, we inject this knowledge into Vision-Language Models (VLMs) through an expert-calibrated fine-tuning strategy, enabling the VLM to perform explicit Chain-of-Thought reasoning. Compared to previous works, EvalVerse not only retains compatibility with foundational ''rightness'' metrics, but also significantly expands the criteria to ''goodness'' and broaden the task coverage to complex multi-shot sequencing and audio-visual integration. Consequently, by providing granular diagnostic signals, EvalVerse transcends a static leaderboard and establishes a fundamental infrastructure for future work, such as reward models and evaluator agent.