ChatPaper.aiChatPaper

VABench : Un banc d'essai complet pour la génération audio-vidéo

VABench: A Comprehensive Benchmark for Audio-Video Generation

December 10, 2025
papers.authors: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang
cs.AI

papers.abstract

Les progrès récents en génération vidéo sont remarquables, permettant aux modèles de produire des vidéos visuellement convaincantes avec un audio synchronisé. Si les benchmarks existants en génération vidéo fournissent des métriques complètes sur la qualité visuelle, ils manquent d'évaluations convaincantes pour la génération audio-vidéo, particulièrement pour les modèles visant à produire des sorties synchronisées. Pour combler cette lacune, nous présentons VABench, un cadre de benchmark complet et multidimensionnel conçu pour évaluer systématiquement les capacités de génération audio-vidéo synchrone. VABench englobe trois types de tâches principales : texte-vers-audio-vidéo (T2AV), image-vers-audio-vidéo (I2AV) et génération audio-vidéo stéréo. Il établit en outre deux modules d'évaluation majeurs couvrant 15 dimensions. Ces dimensions évaluent spécifiquement les similarités par paires (texte-vidéo, texte-audio, vidéo-audio), la synchronisation audio-vidéo, la cohérence labiale-parole, ainsi que des paires de questions-réponses (QR) audio et vidéo soigneusement élaborées, entre autres. De plus, VABench couvre sept catégories de contenu principales : animaux, sons humains, musique, sons environnementaux, sons physiques synchrones, scènes complexes et mondes virtuels. Nous fournissons une analyse systématique et une visualisation des résultats d'évaluation, visant à établir un nouveau standard pour l'évaluation des modèles de génération vidéo dotés de capacités audio synchrones et à promouvoir l'avancement complet du domaine.
English
Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.
PDF72December 19, 2025