EvalVerse: Pipeline-bewusstes und expertenkalibriertes Benchmarking für die professionelle kinematografische Videogenerierung
EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation
May 22, 2026
Autoren: Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao
cs.AI
Zusammenfassung
Die rasante Entwicklung generativer Videogrundmodelle hat das Feld in Richtung professioneller filmischer Synthese vorangetrieben. Um diese anspruchsvolle Qualität zu erreichen, verlagert sich die Gemeinschaft hin zu Reinforcement Learning (RL) und agentischen Arbeitsabläufen. Allerdings hat sich die zuverlässige Evaluierung als kritischer Engpass erwiesen. Vorhandene Benchmarks bewerten hauptsächlich „ob es richtig ist“ (grundlegende Prompt-Befolgung), vernachlässigen jedoch grundlegend „ob es gut ist“ (filmische Qualität, Schauspiel und Ästhetik). Darüber hinaus fehlt es den aktuellen automatisierten Metriken an der notwendigen domänenspezifischen Strenge, um vertrauenswürdige Signale zu liefern, was zu einer schwerwiegenden Glaubwürdigkeitslücke zwischen menschlicher ästhetischer Wahrnehmung und maschineller Bewertung führt. Um diese Lücke zu schließen, führen wir EvalVerse ein, ein umfassendes, pipeline-bewusstes und expertenkalibriertes Evaluierungsframework. Wir betrachten die Bewertung der Videogenerierung nicht nur als eine ingenieurtechnische Aufgabe, sondern als ein fundamentales wissenschaftliches Problem: die systematische Digitalisierung subjektiver filmischer Expertise. Erstens organisieren wir Domänenwissen in eine Bewertungstaxonomie, die an den professionellen Filmherstellungs-Workflow (Vorproduktion, Produktion und Nachproduktion) angelehnt ist. Zweitens destillieren wir menschliche Expertenurteile in einen kuratierten Datensatz mit groß angelegten menschlichen Annotationen. Drittens injizieren wir dieses Wissen in Vision-Sprach-Modelle (VLMs) durch eine expertenkalibrierte Feinabstimmungsstrategie, die es dem VLM ermöglicht, explizite Chain-of-Thought-Argumentation durchzuführen. Im Vergleich zu früheren Arbeiten behält EvalVerse nicht nur die Kompatibilität mit grundlegenden „Richtigkeits“-Metriken bei, sondern erweitert die Kriterien signifikant auf „Güte“ und erweitert die Aufgabenabdeckung auf komplexe Mehrfachaufnahmen-Sequenzierung sowie audiovisuelle Integration. Folglich transzendiert EvalVerse durch die Bereitstellung granularer diagnostischer Signale ein statisches Leaderboard und etabliert eine grundlegende Infrastruktur für zukünftige Arbeiten, wie Belohnungsmodelle und Bewertungsagenten.
English
The rapid evolution of generative video foundation models has propelled the field toward professional-grade cinematic synthesis. To achieve such demanding quality, the community transitions towards Reinforcement Learning (RL) and agentic workflows. However, reliable evaluation has emerged as a critical bottleneck. Existing benchmarks predominantly evaluate ''whether it is right'' (basic prompt-following) while fundamentally neglecting ''whether it is good'' (cinematic quality, acting, and aesthetics). Furthermore, current automated metrics lack the domain-specific rigor required to provide trustworthy signals, creating a severe credibility gap between human aesthetic perception and machine scoring. To bridge this gap, we introduce EvalVerse, a comprehensive, pipeline-aware, and expert-calibrated evaluation framework. We treat video generation assessment not merely as an engineering task, but as a core scientific problem: the systematic digitization of subjective cinematic expertise. First, we organize domain knowledge into an evaluation taxonomy aligned with the professional filmmaking workflow (pre-production, production, and post-production). Second, we distill human expert judgments into a curated dataset with large-scale human annotations. Third, we inject this knowledge into Vision-Language Models (VLMs) through an expert-calibrated fine-tuning strategy, enabling the VLM to perform explicit Chain-of-Thought reasoning. Compared to previous works, EvalVerse not only retains compatibility with foundational ''rightness'' metrics, but also significantly expands the criteria to ''goodness'' and broaden the task coverage to complex multi-shot sequencing and audio-visual integration. Consequently, by providing granular diagnostic signals, EvalVerse transcends a static leaderboard and establishes a fundamental infrastructure for future work, such as reward models and evaluator agent.