ChatPaper.aiChatPaper

EvalVerse : Benchmarking pipeline-aware et calibré par des experts pour la génération professionnelle de vidéos cinématographiques

EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

May 22, 2026
Auteurs: Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao
cs.AI

Résumé

L'évolution rapide des modèles fondamentaux de vidéo générative a propulsé le domaine vers une synthèse cinématographique de qualité professionnelle. Pour atteindre un niveau d'exigence si élevé, la communauté s'oriente vers l'apprentissage par renforcement (RL) et les flux de travail agentiques. Cependant, une évaluation fiable est devenue un goulot d'étranglement critique. Les références existantes évaluent principalement « si c'est correct » (respect basique des instructions) tout en négligeant fondamentalement « si c'est bon » (qualité cinématographique, jeu d'acteur et esthétique). De plus, les métriques automatisées actuelles manquent de la rigueur spécifique au domaine nécessaire pour fournir des signaux fiables, créant un grave fossé de crédibilité entre la perception esthétique humaine et la notation machine. Pour combler ce fossé, nous introduisons EvalVerse, un cadre d'évaluation complet, conscient du pipeline et calibré par des experts. Nous traitons l'évaluation de la génération vidéo non pas comme une simple tâche d'ingénierie, mais comme un problème scientifique fondamental : la numérisation systématique de l'expertise cinématographique subjective. Premièrement, nous organisons les connaissances du domaine en une taxonomie d'évaluation alignée sur le flux de travail professionnel de la réalisation cinématographique (préproduction, production et postproduction). Deuxièmement, nous distillons les jugements d'experts humains dans un ensemble de données organisé avec des annotations humaines à grande échelle. Troisièmement, nous injectons ces connaissances dans les modèles de langage-vision (VLM) via une stratégie de réglage fin calibrée par des experts, permettant au VLM d'effectuer un raisonnement explicite en chaîne de pensée. Par rapport aux travaux antérieurs, EvalVerse conserve non seulement la compatibilité avec les métriques fondamentales de « justesse », mais étend également considérablement les critères à la « qualité » et élargit la couverture des tâches au séquençage complexe multi-plans et à l'intégration audiovisuelle. Par conséquent, en fournissant des signaux de diagnostic granulaires, EvalVerse transcende un classement statique et établit une infrastructure fondamentale pour les travaux futurs, tels que les modèles de récompense et les agents évaluateurs.
English
The rapid evolution of generative video foundation models has propelled the field toward professional-grade cinematic synthesis. To achieve such demanding quality, the community transitions towards Reinforcement Learning (RL) and agentic workflows. However, reliable evaluation has emerged as a critical bottleneck. Existing benchmarks predominantly evaluate ''whether it is right'' (basic prompt-following) while fundamentally neglecting ''whether it is good'' (cinematic quality, acting, and aesthetics). Furthermore, current automated metrics lack the domain-specific rigor required to provide trustworthy signals, creating a severe credibility gap between human aesthetic perception and machine scoring. To bridge this gap, we introduce EvalVerse, a comprehensive, pipeline-aware, and expert-calibrated evaluation framework. We treat video generation assessment not merely as an engineering task, but as a core scientific problem: the systematic digitization of subjective cinematic expertise. First, we organize domain knowledge into an evaluation taxonomy aligned with the professional filmmaking workflow (pre-production, production, and post-production). Second, we distill human expert judgments into a curated dataset with large-scale human annotations. Third, we inject this knowledge into Vision-Language Models (VLMs) through an expert-calibrated fine-tuning strategy, enabling the VLM to perform explicit Chain-of-Thought reasoning. Compared to previous works, EvalVerse not only retains compatibility with foundational ''rightness'' metrics, but also significantly expands the criteria to ''goodness'' and broaden the task coverage to complex multi-shot sequencing and audio-visual integration. Consequently, by providing granular diagnostic signals, EvalVerse transcends a static leaderboard and establishes a fundamental infrastructure for future work, such as reward models and evaluator agent.