MSAVBench: Naar een uitgebreide en betrouwbare evaluatie van multi-shot audio-videogeneratie

Samenvatting

Videogeneratie evolueert snel van single-shot synthese naar complexe multi-shot audio-video (MSAV) narratieven om aan reële vraagstukken te voldoen. Het evalueren van dergelijke grensverleggende modellen blijft echter een fundamentele uitdaging. Bestaande benchmarks zijn beperkt in reikwijdte en datadiversiteit en maken gebruik van rigide evaluatiepijplijnen, wat een systematische en betrouwbare beoordeling van moderne MSAV-modellen belemmert. Om deze hiaten te overbruggen introduceren we MSAVBench, de eerste uitgebreide benchmark en adaptieve hybride evaluatiekader voor multi-shot audio-videogeneratie. Onze benchmark bestrijkt vier sleuteldimensies: video, audio, shot en referentie, met diverse taakinstellingen, variërende shot aantallen tot 15, en uitdagende niet-realistische scenario's. Ons evaluatiekader verbetert de robuustheid via een adaptief zelfcorrectiemechanisme voor shotsegmentatie, per-instantie rubrieken voor subjectieve metrieken, en tool-gestuurde bewijsextractie voor complexe oordelen. Bovendien bereikt MSAVBench een hoge overeenstemming met menselijke oordelen, met een Spearman rangcorrelatie van 91,5%. Onze systematische evaluatie van 19 state-of-the-art gesloten- en open-source modellen toont aan dat huidige systemen nog steeds worstelen met regisseursniveaucontrole en fijnmazige audiovisuele synchronisatie, terwijl modulaire of agentische generatiepijplijnen een veelbelovende weg bieden om de kloof tussen open- en closed-source modellen te verkleinen. We zullen de benchmarkgegevens en evaluatiecode vrijgeven om toekomstig onderzoek te faciliteren.

English

Video generation is rapidly evolving from single-shot synthesis to complex multi-shot audio-video (MSAV) narratives to meet real-world demands. However, evaluating such frontier models remains a fundamental challenge. Existing benchmarks are limited in scope and data diversity, and rely on rigid evaluation pipelines, preventing systematic and reliable assessment of modern MSAV models. To bridge these gaps, we introduce MSAVBench, the first comprehensive benchmark and adaptive hybrid evaluation framework for multi-shot audio-video generation. Our benchmark spans four key dimensions, video, audio, shot, and reference, covering diverse task settings, varying shot counts of up to 15, and challenging non-realistic scenarios. Our evaluation framework improves robustness through an adaptive self-correction mechanism for shot segmentation, instance-wise rubrics for subjective metrics, and tool-grounded evidence extraction for complex judgments. Furthermore, MSAVBench achieves high alignment with human judgments, reaching a Spearman rank correlation of 91.5%. Our systematic evaluation of 19 state-of-the-art closed- and open-source models shows that current systems still struggle with director-level control and fine-grained audio-visual synchronization, while modular or agentic generation pipelines offer a promising path toward narrowing the gap between open- and closed-source models. We will release the benchmark data and evaluation code to facilitate future research.