MSAVBench: Zur umfassenden und zuverlässigen Bewertung der Multi-Shot-Audio-Video-Generierung

Zusammenfassung

Die Videogenerierung entwickelt sich rasant von der Einzelaufnahme-Synthese hin zu komplexen Multi-Shot-Audio-Video-Erzählungen (MSAV), um realen Anforderungen gerecht zu werden. Die Evaluierung solcher modernen Modelle bleibt jedoch eine grundlegende Herausforderung. Bestehende Benchmarks sind hinsichtlich ihres Umfangs und ihrer Datenvielfalt eingeschränkt und stützen sich auf starre Evaluierungspipelines, was eine systematische und zuverlässige Bewertung moderner MSAV-Modelle verhindert. Um diese Lücken zu schließen, führen wir MSAVBench ein, den ersten umfassenden Benchmark und adaptiven hybriden Evaluierungsrahmen für die Multi-Shot-Audio-Video-Generierung. Unser Benchmark umfasst vier Schlüsseldimensionen – Video, Audio, Shot und Referenz – und deckt unterschiedliche Aufgabeneinstellungen, variierende Shot-Anzahlen von bis zu 15 sowie anspruchsvolle nicht-realistische Szenarien ab. Unser Evaluierungsrahmen verbessert die Robustheit durch einen adaptiven Selbstkorrekturmechanismus für die Shot-Segmentierung, instanzspezifische Rubriken für subjektive Metriken sowie werkzeuggestützte Beweisextraktion für komplexe Urteile. Darüber hinaus erreicht MSAVBench eine hohe Übereinstimmung mit menschlichen Bewertungen, mit einer Spearman-Rangkorrelation von 91,5 %. Unsere systematische Evaluierung von 19 hochmodernen Closed- und Open-Source-Modellen zeigt, dass aktuelle Systeme weiterhin mit der Steuerung auf Regieebene und einer feinkörnigen Audio-Video-Synchronisation kämpfen, während modulare oder agentische Generierungspipelines einen vielversprechenden Weg zur Verringerung der Lücke zwischen Open- und Closed-Source-Modellen bieten. Wir werden die Benchmark-Daten und den Evaluierungscode veröffentlichen, um zukünftige Forschung zu unterstützen.

English

Video generation is rapidly evolving from single-shot synthesis to complex multi-shot audio-video (MSAV) narratives to meet real-world demands. However, evaluating such frontier models remains a fundamental challenge. Existing benchmarks are limited in scope and data diversity, and rely on rigid evaluation pipelines, preventing systematic and reliable assessment of modern MSAV models. To bridge these gaps, we introduce MSAVBench, the first comprehensive benchmark and adaptive hybrid evaluation framework for multi-shot audio-video generation. Our benchmark spans four key dimensions, video, audio, shot, and reference, covering diverse task settings, varying shot counts of up to 15, and challenging non-realistic scenarios. Our evaluation framework improves robustness through an adaptive self-correction mechanism for shot segmentation, instance-wise rubrics for subjective metrics, and tool-grounded evidence extraction for complex judgments. Furthermore, MSAVBench achieves high alignment with human judgments, reaching a Spearman rank correlation of 91.5%. Our systematic evaluation of 19 state-of-the-art closed- and open-source models shows that current systems still struggle with director-level control and fine-grained audio-visual synchronization, while modular or agentic generation pipelines offer a promising path toward narrowing the gap between open- and closed-source models. We will release the benchmark data and evaluation code to facilitate future research.