MSAVBench: Hacia una Evaluación Integral y Confiable de la Generación de Audio-Video en Múltiples Tomas

Resumen

La generación de video está evolucionando rápidamente desde la síntesis de una sola toma hasta narrativas complejas de audio-video multi-toma (MSAV) para satisfacer las demandas del mundo real. Sin embargo, evaluar estos modelos de frontera sigue siendo un desafío fundamental. Los benchmarks existentes son limitados en alcance y diversidad de datos, y dependen de pipelines de evaluación rígidos, lo que impide una evaluación sistemática y fiable de los modelos MSAV modernos. Para cerrar estas brechas, presentamos MSAVBench, el primer benchmark integral y marco de evaluación híbrido adaptativo para la generación de audio-video multi-toma. Nuestro benchmark abarca cuatro dimensiones clave: video, audio, toma y referencia, cubriendo diversas configuraciones de tareas, conteos de tomas variables de hasta 15 y escenarios desafiantes no realistas. Nuestro marco de evaluación mejora la robustez mediante un mecanismo adaptativo de autocorrección para la segmentación de tomas, rúbricas por instancia para métricas subjetivas y extracción de evidencia basada en herramientas para juicios complejos. Además, MSAVBench logra una alta alineación con los juicios humanos, alcanzando una correlación de rango de Spearman del 91.5 %. Nuestra evaluación sistemática de 19 modelos de última generación, tanto de código cerrado como abierto, muestra que los sistemas actuales aún tienen dificultades con el control a nivel de director y la sincronización audiovisual de grano fino, mientras que los pipelines de generación modulares o agentivos ofrecen un camino prometedor para reducir la brecha entre los modelos de código abierto y cerrado. Publicaremos los datos del benchmark y el código de evaluación para facilitar futuras investigaciones.

English

Video generation is rapidly evolving from single-shot synthesis to complex multi-shot audio-video (MSAV) narratives to meet real-world demands. However, evaluating such frontier models remains a fundamental challenge. Existing benchmarks are limited in scope and data diversity, and rely on rigid evaluation pipelines, preventing systematic and reliable assessment of modern MSAV models. To bridge these gaps, we introduce MSAVBench, the first comprehensive benchmark and adaptive hybrid evaluation framework for multi-shot audio-video generation. Our benchmark spans four key dimensions, video, audio, shot, and reference, covering diverse task settings, varying shot counts of up to 15, and challenging non-realistic scenarios. Our evaluation framework improves robustness through an adaptive self-correction mechanism for shot segmentation, instance-wise rubrics for subjective metrics, and tool-grounded evidence extraction for complex judgments. Furthermore, MSAVBench achieves high alignment with human judgments, reaching a Spearman rank correlation of 91.5%. Our systematic evaluation of 19 state-of-the-art closed- and open-source models shows that current systems still struggle with director-level control and fine-grained audio-visual synchronization, while modular or agentic generation pipelines offer a promising path toward narrowing the gap between open- and closed-source models. We will release the benchmark data and evaluation code to facilitate future research.