VABench: Un Benchmark Completo per la Generazione Audio-Video
VABench: A Comprehensive Benchmark for Audio-Video Generation
December 10, 2025
Autori: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang
cs.AI
Abstract
I recenti progressi nella generazione video sono stati notevoli, consentendo ai modelli di produrre video visivamente accattivanti con audio sincronizzato. Sebbene i benchmark esistenti per la generazione video forniscano metriche complete per la qualità visiva, mancano di valutazioni convincenti per la generazione audio-video, specialmente per i modelli che mirano a generare output audio-video sincronizzati. Per colmare questa lacuna, introduciamo VABench, un framework di benchmark completo e multidimensionale progettato per valutare sistematicamente le capacità della generazione audio-video sincrona. VABench comprende tre tipologie principali di task: testo-audio-video (T2AV), immagine-audio-video (I2AV) e generazione audio-video stereo. Stabilisce inoltre due moduli di valutazione principali che coprono 15 dimensioni. Queste dimensioni valutano specificamente le similarità a coppie (testo-video, testo-audio, video-audio), la sincronizzazione audio-video, la coerenza labiale-voce e coppie di domande e risposte (QA) audio e video accuratamente selezionate, tra gli altri aspetti. Inoltre, VABench copre sette categorie di contenuto principali: animali, suoni umani, musica, suoni ambientali, suoni fisici sincroni, scene complesse e mondi virtuali. Forniamo un'analisi sistematica e una visualizzazione dei risultati della valutazione, con l'obiettivo di stabilire un nuovo standard per valutare i modelli di generazione video con capacità audio sincrone e promuovere il progresso completo del settore.
English
Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.