EvalVerse: Benchmarking Consciente do Pipeline e Calibrado por Especialistas para Geração Profissional de Vídeos Cinematográficos
EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation
May 22, 2026
Autores: Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao
cs.AI
Resumo
A rápida evolução dos modelos fundamentais generativos de vídeo impulsionou o campo em direção à síntese cinematográfica de nível profissional. Para alcançar essa qualidade exigente, a comunidade está migrando para o Aprendizado por Reforço (RL) e fluxos de trabalho agentivos. No entanto, a avaliação confiável emergiu como um gargalo crítico. Os referenciais existentes avaliam predominantemente "se está certo" (aderência básica ao prompt), negligenciando fundamentalmente "se é bom" (qualidade cinematográfica, atuação e estética). Além disso, as métricas automatizadas atuais carecem do rigor específico do domínio necessário para fornecer sinais confiáveis, criando uma grave lacuna de credibilidade entre a percepção estética humana e a pontuação da máquina. Para preencher essa lacuna, apresentamos o EvalVerse, uma estrutura de avaliação abrangente, ciente do pipeline e calibrada por especialistas. Tratamos a avaliação da geração de vídeos não meramente como uma tarefa de engenharia, mas como um problema científico central: a digitalização sistemática da expertise cinematográfica subjetiva. Primeiro, organizamos o conhecimento do domínio em uma taxonomia de avaliação alinhada ao fluxo de trabalho profissional de produção cinematográfica (pré-produção, produção e pós-produção). Segundo, destilamos julgamentos de especialistas humanos em um conjunto de dados curado com anotações humanas em larga escala. Terceiro, injetamos esse conhecimento em Modelos de Visão e Linguagem (VLMs) por meio de uma estratégia de ajuste fino calibrada por especialistas, permitindo que o VLM realize raciocínio explícito em Cadeia de Pensamento. Em comparação com trabalhos anteriores, o EvalVerse não apenas mantém a compatibilidade com métricas fundamentais de "correção", mas também expande significativamente os critérios para "qualidade" e amplia a cobertura de tarefas para sequenciamento complexo de múltiplas tomadas e integração audiovisual. Consequentemente, ao fornecer sinais diagnósticos granulares, o EvalVerse transcende um quadro de líderes estático e estabelece uma infraestrutura fundamental para trabalhos futuros, como modelos de recompensa e agentes avaliadores.
English
The rapid evolution of generative video foundation models has propelled the field toward professional-grade cinematic synthesis. To achieve such demanding quality, the community transitions towards Reinforcement Learning (RL) and agentic workflows. However, reliable evaluation has emerged as a critical bottleneck. Existing benchmarks predominantly evaluate ''whether it is right'' (basic prompt-following) while fundamentally neglecting ''whether it is good'' (cinematic quality, acting, and aesthetics). Furthermore, current automated metrics lack the domain-specific rigor required to provide trustworthy signals, creating a severe credibility gap between human aesthetic perception and machine scoring. To bridge this gap, we introduce EvalVerse, a comprehensive, pipeline-aware, and expert-calibrated evaluation framework. We treat video generation assessment not merely as an engineering task, but as a core scientific problem: the systematic digitization of subjective cinematic expertise. First, we organize domain knowledge into an evaluation taxonomy aligned with the professional filmmaking workflow (pre-production, production, and post-production). Second, we distill human expert judgments into a curated dataset with large-scale human annotations. Third, we inject this knowledge into Vision-Language Models (VLMs) through an expert-calibrated fine-tuning strategy, enabling the VLM to perform explicit Chain-of-Thought reasoning. Compared to previous works, EvalVerse not only retains compatibility with foundational ''rightness'' metrics, but also significantly expands the criteria to ''goodness'' and broaden the task coverage to complex multi-shot sequencing and audio-visual integration. Consequently, by providing granular diagnostic signals, EvalVerse transcends a static leaderboard and establishes a fundamental infrastructure for future work, such as reward models and evaluator agent.