EvalVerse: Evaluación comparativa consciente del pipeline y calibrada por expertos para la generación profesional de videos cinematográficos

Resumen

La rápida evolución de los modelos fundacionales de generación de video ha impulsado el campo hacia la síntesis cinematográfica de nivel profesional. Para lograr esta exigente calidad, la comunidad está avanzando hacia el aprendizaje por refuerzo (RL) y los flujos de trabajo basados en agentes. Sin embargo, la evaluación fiable se ha convertido en un cuello de botella crítico. Los benchmarks existentes evalúan principalmente "si es correcto" (seguimiento básico de instrucciones), mientras que descuidan fundamentalmente "si es bueno" (calidad cinematográfica, actuación y estética). Además, las métricas automatizadas actuales carecen del rigor específico del dominio necesario para proporcionar señales fiables, lo que genera una grave brecha de credibilidad entre la percepción estética humana y la puntuación automática. Para superar esta brecha, presentamos EvalVerse, un marco de evaluación integral, consciente del pipeline y calibrado por expertos. Abordamos la evaluación de la generación de video no solo como una tarea de ingeniería, sino como un problema científico central: la digitalización sistemática de la experiencia cinematográfica subjetiva. En primer lugar, organizamos el conocimiento del dominio en una taxonomía de evaluación alineada con el flujo de trabajo profesional de producción cinematográfica (preproducción, producción y postproducción). En segundo lugar, destilamos los juicios de expertos humanos en un conjunto de datos curado con anotaciones humanas a gran escala. En tercer lugar, inyectamos este conocimiento en modelos de lenguaje y visión (VLM) a través de una estrategia de ajuste fino calibrada por expertos, permitiendo que el VLM realice un razonamiento explícito en cadena de pensamiento (Chain-of-Thought). En comparación con trabajos anteriores, EvalVerse no solo mantiene la compatibilidad con las métricas fundacionales de "corrección", sino que también expande significativamente los criterios hacia la "bondad" y amplía la cobertura de tareas a secuencias complejas de múltiples tomas e integración audiovisual. En consecuencia, al proporcionar señales de diagnóstico detalladas, EvalVerse trasciende una tabla de clasificación estática y establece una infraestructura fundamental para trabajos futuros, como modelos de recompensa y agentes evaluadores.

English

The rapid evolution of generative video foundation models has propelled the field toward professional-grade cinematic synthesis. To achieve such demanding quality, the community transitions towards Reinforcement Learning (RL) and agentic workflows. However, reliable evaluation has emerged as a critical bottleneck. Existing benchmarks predominantly evaluate ''whether it is right'' (basic prompt-following) while fundamentally neglecting ''whether it is good'' (cinematic quality, acting, and aesthetics). Furthermore, current automated metrics lack the domain-specific rigor required to provide trustworthy signals, creating a severe credibility gap between human aesthetic perception and machine scoring. To bridge this gap, we introduce EvalVerse, a comprehensive, pipeline-aware, and expert-calibrated evaluation framework. We treat video generation assessment not merely as an engineering task, but as a core scientific problem: the systematic digitization of subjective cinematic expertise. First, we organize domain knowledge into an evaluation taxonomy aligned with the professional filmmaking workflow (pre-production, production, and post-production). Second, we distill human expert judgments into a curated dataset with large-scale human annotations. Third, we inject this knowledge into Vision-Language Models (VLMs) through an expert-calibrated fine-tuning strategy, enabling the VLM to perform explicit Chain-of-Thought reasoning. Compared to previous works, EvalVerse not only retains compatibility with foundational ''rightness'' metrics, but also significantly expands the criteria to ''goodness'' and broaden the task coverage to complex multi-shot sequencing and audio-visual integration. Consequently, by providing granular diagnostic signals, EvalVerse transcends a static leaderboard and establishes a fundamental infrastructure for future work, such as reward models and evaluator agent.