EvalVerse: Pipeline-bewuste en expertgekalibreerde benchmarking voor professionele cinematische videogeneratie

Samenvatting

De snelle evolutie van generatieve videofundamentmodellen heeft het vakgebied richting professionele cinematografische synthese gestuwd. Om een dergelijke veeleisende kwaliteit te bereiken, verschuift de gemeenschap naar Reinforcement Learning (RL) en agentische workflows. Echter, betrouwbare evaluatie is een kritieke bottleneck geworden. Bestaande benchmarks beoordelen voornamelijk 'of het juist is' (basale prompt-volging) terwijl ze fundamenteel 'of het goed is' (cinematografische kwaliteit, acteren en esthetiek) verwaarlozen. Bovendien missen de huidige geautomatiseerde metrieken de domeinspecifieke nauwkeurigheid die nodig is om betrouwbare signalen te leveren, waardoor een ernstige geloofwaardigheidskloof ontstaat tussen menselijke esthetische perceptie en machinebeoordeling. Om deze kloof te overbruggen introduceren we EvalVerse, een uitgebreid, pijplijnbewust en expert-gekalibreerd evaluatiekader. We beschouwen de beoordeling van videogeneratie niet louter als een technische taak, maar als een kernwetenschappelijk probleem: de systematische digitalisering van subjectieve cinematografische expertise. Ten eerste organiseren we domeinkennis in een evaluatietaxonomie die is afgestemd op de professionele filmproductieworkflow (preproductie, productie en postproductie). Ten tweede destilleren we menselijke expertoordelen tot een samengestelde dataset met grootschalige menselijke annotaties. Ten derde injecteren we deze kennis in visie-taalmodelen via een expert-gekalibreerde fine-tuningstrategie, waardoor het VLM in staat wordt gesteld expliciete Chain-of-Thought-redeneringen uit te voeren. In vergelijking met eerdere werken blijft EvalVerse niet alleen compatibel met fundamentele 'juistheids'-metrieken, maar breidt het de criteria aanzienlijk uit naar 'goedheid' en verbreedt het de taakdekking naar complexe multi-shot-sequencing en audiovisuele integratie. Dientengevolge overstijgt EvalVerse, door het leveren van gedetailleerde diagnostische signalen, een statisch klassement en vestigt het een fundamentele infrastructuur voor toekomstig werk, zoals beloningsmodellen en evaluatoragenten.

English

The rapid evolution of generative video foundation models has propelled the field toward professional-grade cinematic synthesis. To achieve such demanding quality, the community transitions towards Reinforcement Learning (RL) and agentic workflows. However, reliable evaluation has emerged as a critical bottleneck. Existing benchmarks predominantly evaluate ''whether it is right'' (basic prompt-following) while fundamentally neglecting ''whether it is good'' (cinematic quality, acting, and aesthetics). Furthermore, current automated metrics lack the domain-specific rigor required to provide trustworthy signals, creating a severe credibility gap between human aesthetic perception and machine scoring. To bridge this gap, we introduce EvalVerse, a comprehensive, pipeline-aware, and expert-calibrated evaluation framework. We treat video generation assessment not merely as an engineering task, but as a core scientific problem: the systematic digitization of subjective cinematic expertise. First, we organize domain knowledge into an evaluation taxonomy aligned with the professional filmmaking workflow (pre-production, production, and post-production). Second, we distill human expert judgments into a curated dataset with large-scale human annotations. Third, we inject this knowledge into Vision-Language Models (VLMs) through an expert-calibrated fine-tuning strategy, enabling the VLM to perform explicit Chain-of-Thought reasoning. Compared to previous works, EvalVerse not only retains compatibility with foundational ''rightness'' metrics, but also significantly expands the criteria to ''goodness'' and broaden the task coverage to complex multi-shot sequencing and audio-visual integration. Consequently, by providing granular diagnostic signals, EvalVerse transcends a static leaderboard and establishes a fundamental infrastructure for future work, such as reward models and evaluator agent.