MSAVBench : Vers une évaluation complète et fiable de la génération audio-vidéo multi-shot

Résumé

La génération vidéo évolue rapidement de la synthèse en un seul plan à des récits audio-vidéo multi-plans (MSAV) complexes pour répondre aux exigences du monde réel. Cependant, l'évaluation de ces modèles de pointe reste un défi fondamental. Les référentiels existants sont limités en termes de portée et de diversité des données, et reposent sur des pipelines d'évaluation rigides, empêchant une évaluation systématique et fiable des modèles MSAV modernes. Pour combler ces lacunes, nous présentons MSAVBench, le premier référentiel complet et cadre d'évaluation hybride adaptatif pour la génération audio-vidéo multi-plans. Notre référentiel couvre quatre dimensions clés — vidéo, audio, plan et référence — en intégrant diverses configurations de tâches, un nombre variable de plans allant jusqu'à 15, et des scénarios non réalistes exigeants. Notre cadre d'évaluation améliore la robustesse grâce à un mécanisme d'auto-correction adaptatif pour la segmentation des plans, des grilles d'évaluation par instance pour les métriques subjectives, et une extraction de preuves basée sur des outils pour les jugements complexes. De plus, MSAVBench atteint un alignement élevé avec les jugements humains, avec une corrélation de rang de Spearman de 91,5 %. Notre évaluation systématique de 19 modèles propriétaires et open source de pointe montre que les systèmes actuels peinent encore à assurer un contrôle au niveau du réalisateur et une synchronisation audio-visuelle fine, tandis que les pipelines de génération modulaires ou agentiques offrent une voie prometteuse pour réduire l'écart entre les modèles open source et propriétaires. Nous publierons les données du référentiel et le code d'évaluation pour faciliter les recherches futures.

English

Video generation is rapidly evolving from single-shot synthesis to complex multi-shot audio-video (MSAV) narratives to meet real-world demands. However, evaluating such frontier models remains a fundamental challenge. Existing benchmarks are limited in scope and data diversity, and rely on rigid evaluation pipelines, preventing systematic and reliable assessment of modern MSAV models. To bridge these gaps, we introduce MSAVBench, the first comprehensive benchmark and adaptive hybrid evaluation framework for multi-shot audio-video generation. Our benchmark spans four key dimensions, video, audio, shot, and reference, covering diverse task settings, varying shot counts of up to 15, and challenging non-realistic scenarios. Our evaluation framework improves robustness through an adaptive self-correction mechanism for shot segmentation, instance-wise rubrics for subjective metrics, and tool-grounded evidence extraction for complex judgments. Furthermore, MSAVBench achieves high alignment with human judgments, reaching a Spearman rank correlation of 91.5%. Our systematic evaluation of 19 state-of-the-art closed- and open-source models shows that current systems still struggle with director-level control and fine-grained audio-visual synchronization, while modular or agentic generation pipelines offer a promising path toward narrowing the gap between open- and closed-source models. We will release the benchmark data and evaluation code to facilitate future research.