MSAVBench: Rumo a uma Avaliação Abrangente e Confiável da Geração de Áudio-Vídeo Multi-Shot

Resumo

A geração de vídeo está evoluindo rapidamente da síntese de uma única tomada para narrativas complexas de áudio-vídeo multi-take (MSAV), a fim de atender às demandas do mundo real. No entanto, avaliar esses modelos de fronteira continua sendo um desafio fundamental. Os benchmarks existentes são limitados em escopo e diversidade de dados, além de dependerem de pipelines de avaliação rígidos, impedindo uma avaliação sistemática e confiável dos modelos modernos de MSAV. Para preencher essas lacunas, apresentamos o MSAVBench, o primeiro benchmark abrangente e estrutura de avaliação híbrida adaptativa para geração de áudio-vídeo multi-take. Nosso benchmark abrange quatro dimensões principais — vídeo, áudio, tomada e referência — cobrindo diversas configurações de tarefa, contagens variáveis de tomadas de até 15 e cenários desafiadores não realistas. Nossa estrutura de avaliação melhora a robustez por meio de um mecanismo adaptativo de autocorreção para segmentação de tomadas, rubricas por instância para métricas subjetivas e extração de evidências baseada em ferramentas para julgamentos complexos. Além disso, o MSAVBench atinge um alto alinhamento com julgamentos humanos, alcançando uma correlação de postos de Spearman de 91,5%. Nossa avaliação sistemática de 19 modelos de última geração de código fechado e aberto mostra que os sistemas atuais ainda enfrentam dificuldades com controle em nível de diretor e sincronização audiovisual de granulação fina, enquanto pipelines de geração modulares ou agentivos oferecem um caminho promissor para reduzir a lacuna entre modelos de código aberto e fechado. Disponibilizaremos os dados do benchmark e o código de avaliação para facilitar pesquisas futuras.

English

Video generation is rapidly evolving from single-shot synthesis to complex multi-shot audio-video (MSAV) narratives to meet real-world demands. However, evaluating such frontier models remains a fundamental challenge. Existing benchmarks are limited in scope and data diversity, and rely on rigid evaluation pipelines, preventing systematic and reliable assessment of modern MSAV models. To bridge these gaps, we introduce MSAVBench, the first comprehensive benchmark and adaptive hybrid evaluation framework for multi-shot audio-video generation. Our benchmark spans four key dimensions, video, audio, shot, and reference, covering diverse task settings, varying shot counts of up to 15, and challenging non-realistic scenarios. Our evaluation framework improves robustness through an adaptive self-correction mechanism for shot segmentation, instance-wise rubrics for subjective metrics, and tool-grounded evidence extraction for complex judgments. Furthermore, MSAVBench achieves high alignment with human judgments, reaching a Spearman rank correlation of 91.5%. Our systematic evaluation of 19 state-of-the-art closed- and open-source models shows that current systems still struggle with director-level control and fine-grained audio-visual synchronization, while modular or agentic generation pipelines offer a promising path toward narrowing the gap between open- and closed-source models. We will release the benchmark data and evaluation code to facilitate future research.