MSAVBench: к комплексной и надежной оценке многосценарной генерации аудио-видео

Аннотация

Генерация видео стремительно эволюционирует от односегментного синтеза к сложным многосегментным аудио-видео (MSAV) нарративам, чтобы соответствовать требованиям реальных приложений. Однако оценка таких передовых моделей остается фундаментальной проблемой. Существующие бенчмарки ограничены по охвату и разнообразию данных, а также полагаются на жесткие конвейеры оценки, что препятствует систематической и надежной оценке современных MSAV-моделей. Для устранения этих пробелов мы представляем MSAVBench — первый всеобъемлющий бенчмарк и адаптивную гибридную систему оценки для многосегментной генерации аудио и видео. Наш бенчмарк охватывает четыре ключевых измерения: видео, аудио, сегмент и референс, включая разнообразные конфигурации задач, различное количество сегментов (до 15) и сложные нереалистичные сценарии. Предложенная система оценки повышает надежность за счет механизма адаптивной самокоррекции для сегментации шотов, покомпонентных рубрик для субъективных метрик и извлечения доказательств на основе инструментов для сложных суждений. Кроме того, MSAVBench достигает высокой согласованности с человеческими оценками, демонстрируя ранговая корреляция Спирмена на уровне 91,5%. Наш систематический анализ 19 современных моделей с закрытым и открытым исходным кодом показывает, что текущие системы по-прежнему испытывают трудности с контролем на уровне режиссера и тонкой аудиовизуальной синхронизацией, в то время как модульные или агентные конвейеры генерации предлагают многообещающий путь к сокращению разрыва между моделями с открытым и закрытым исходным кодом. Мы планируем опубликовать данные бенчмарка и код оценки для поддержки будущих исследований.

English

Video generation is rapidly evolving from single-shot synthesis to complex multi-shot audio-video (MSAV) narratives to meet real-world demands. However, evaluating such frontier models remains a fundamental challenge. Existing benchmarks are limited in scope and data diversity, and rely on rigid evaluation pipelines, preventing systematic and reliable assessment of modern MSAV models. To bridge these gaps, we introduce MSAVBench, the first comprehensive benchmark and adaptive hybrid evaluation framework for multi-shot audio-video generation. Our benchmark spans four key dimensions, video, audio, shot, and reference, covering diverse task settings, varying shot counts of up to 15, and challenging non-realistic scenarios. Our evaluation framework improves robustness through an adaptive self-correction mechanism for shot segmentation, instance-wise rubrics for subjective metrics, and tool-grounded evidence extraction for complex judgments. Furthermore, MSAVBench achieves high alignment with human judgments, reaching a Spearman rank correlation of 91.5%. Our systematic evaluation of 19 state-of-the-art closed- and open-source models shows that current systems still struggle with director-level control and fine-grained audio-visual synchronization, while modular or agentic generation pipelines offer a promising path toward narrowing the gap between open- and closed-source models. We will release the benchmark data and evaluation code to facilitate future research.