VABench: Um Benchmark Abrangente para Geração Áudio-Vídeo

Resumo

Os recentes avanços na geração de vídeo têm sido notáveis, permitindo que modelos produzam vídeos visualmente atraentes com áudio sincronizado. Embora os benchmarks existentes para geração de vídeo ofereçam métricas abrangentes para qualidade visual, eles carecem de avaliações convincentes para geração áudio-vídeo, especialmente para modelos que visam gerar saídas sincronizadas de áudio e vídeo. Para preencher essa lacuna, introduzimos o VABench, uma estrutura de benchmark abrangente e multidimensional projetada para avaliar sistematicamente as capacidades de geração síncrona de áudio-vídeo. O VABench abrange três tipos principais de tarefas: texto-para-áudio-vídeo (T2AV), imagem-para-áudio-vídeo (I2AV) e geração de áudio-vídeo estéreo. Ele ainda estabelece dois módulos principais de avaliação cobrindo 15 dimensões. Essas dimensões avaliam especificamente similaridades pareadas (texto-vídeo, texto-áudio, vídeo-áudio), sincronização áudio-vídeo, consistência lábio-fala e pares cuidadosamente selecionados de perguntas e respostas (QA) de áudio e vídeo, entre outros. Adicionalmente, o VABench abrange sete categorias principais de conteúdo: animais, sons humanos, música, sons ambientais, sons físicos síncronos, cenas complexas e mundos virtuais. Fornecemos uma análise sistemática e visualização dos resultados da avaliação, com o objetivo de estabelecer um novo padrão para avaliar modelos de geração de vídeo com capacidades de áudio síncrono e promover o avanço abrangente da área.

English

Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.