MSAVBench: 包括的かつ信頼性の高いマルチショット音声・動画生成評価に向けて
MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation
May 19, 2026
著者: Yujie Wei, Yujin Han, Zhekai Chen, Yongming Li, Kaixun Jiang, Zhihang Liu, Quanhao Li, Zhiwu Qing, Xiang Wang, Zhen Xing, Ruihang Chu, Lingyi Hong, Yefei He, Junjie Zhou, Junqiu Yu, Yang Shi, Difan Zou, Kai Zhu, Shiwei Zhang, Yingya Zhang, Yu Liu, Xihui Liu, Hongming Shan
cs.AI
要旨
映像生成は、単一ショット合成から、現実世界の要求に応える複雑なマルチショット音声映像(MSAV)ナラティブへと急速に進化している。しかし、こうした最先端モデルの評価は未だ根本的な課題である。既存のベンチマークは範囲とデータの多様性が限られており、硬直した評価パイプラインに依存しているため、現代のMSAVモデルを体系的かつ信頼性高く評価することができない。これらのギャップを埋めるために、我々はMSAVBenchを導入する。これは、マルチショット音声映像生成のための初の包括的ベンチマークと適応型ハイブリッド評価フレームワークである。我々のベンチマークは、映像、音声、ショット、参照の4つの主要次元をカバーし、多様なタスク設定、最大15までの可変ショット数、および困難な非現実的なシナリオを含む。評価フレームワークは、ショット分割のための適応的自己修正機構、主観的指標のためのインスタンス単位のルーブリック、複雑な判断のためのツール基盤のエビデンス抽出により、ロバスト性を向上させる。さらに、MSAVBenchは人間の判断との高い一致を達成し、スピアマンの順位相関係数は91.5%に達する。19の最先端のクローズドソースおよびオープンソースモデルに対する体系的な評価により、現在のシステムは監督レベルの制御や微細な音声-映像同期に依然として苦戦している一方、モジュール型またはエージェント型の生成パイプラインがオープンソースモデルとクローズドソースモデルの差を縮める有望な道を提供することが示された。今後の研究を促進するために、ベンチマークデータと評価コードを公開する予定である。
English
Video generation is rapidly evolving from single-shot synthesis to complex multi-shot audio-video (MSAV) narratives to meet real-world demands. However, evaluating such frontier models remains a fundamental challenge. Existing benchmarks are limited in scope and data diversity, and rely on rigid evaluation pipelines, preventing systematic and reliable assessment of modern MSAV models. To bridge these gaps, we introduce MSAVBench, the first comprehensive benchmark and adaptive hybrid evaluation framework for multi-shot audio-video generation. Our benchmark spans four key dimensions, video, audio, shot, and reference, covering diverse task settings, varying shot counts of up to 15, and challenging non-realistic scenarios. Our evaluation framework improves robustness through an adaptive self-correction mechanism for shot segmentation, instance-wise rubrics for subjective metrics, and tool-grounded evidence extraction for complex judgments. Furthermore, MSAVBench achieves high alignment with human judgments, reaching a Spearman rank correlation of 91.5%. Our systematic evaluation of 19 state-of-the-art closed- and open-source models shows that current systems still struggle with director-level control and fine-grained audio-visual synchronization, while modular or agentic generation pipelines offer a promising path toward narrowing the gap between open- and closed-source models. We will release the benchmark data and evaluation code to facilitate future research.