VABench: Un Punto de Referencia Integral para la Generación Audio-Visual
VABench: A Comprehensive Benchmark for Audio-Video Generation
December 10, 2025
Autores: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang
cs.AI
Resumen
Los recientes avances en generación de vídeo han sido notables, permitiendo a los modelos producir vídeos visualmente atractivos con audio sincronizado. Si bien los puntos de referencia existentes para la generación de vídeo ofrecen métricas exhaustivas sobre la calidad visual, carecen de evaluaciones convincentes para la generación de audio-vídeo, especialmente para modelos que buscan generar salidas de audio y vídeo sincronizadas. Para abordar esta carencia, presentamos VABench, un marco de evaluación integral y multidimensional diseñado para evaluar sistemáticamente las capacidades de la generación síncrona de audio-vídeo. VABench abarca tres tipos principales de tareas: texto-a-audio-vídeo (T2AV), imagen-a-audio-vídeo (I2AV) y generación de audio-vídeo estéreo. Además, establece dos módulos principales de evaluación que cubren 15 dimensiones. Estas dimensiones evalúan específicamente similitudes pareadas (texto-vídeo, texto-audio, vídeo-audio), sincronización audio-vídeo, coherencia labial-vocal, y pares cuidadosamente seleccionados de preguntas y respuestas (QA) sobre audio y vídeo, entre otros aspectos. Asimismo, VABench cubre siete categorías principales de contenido: animales, sonidos humanos, música, sonidos ambientales, sonidos físicos síncronos, escenas complejas y mundos virtuales. Proporcionamos un análisis sistemático y una visualización de los resultados de la evaluación, con el objetivo de establecer un nuevo estándar para valorar modelos de generación de vídeo con capacidades de audio síncrono y promover el avance integral del campo.
English
Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.