ChatPaper.aiChatPaper

VABench: Een Uitgebreide Benchmark voor Audio-Video Generatie

VABench: A Comprehensive Benchmark for Audio-Video Generation

December 10, 2025
Auteurs: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang
cs.AI

Samenvatting

Recente vooruitgang in videogeneratie is opmerkelijk, waardoor modellen visueel aantrekkelijke video's met gesynchroniseerde audio kunnen produceren. Hoewel bestaande benchmarks voor videogeneratie uitgebreide metrieken bieden voor visuele kwaliteit, ontbreekt het hen aan overtuigende evaluaties voor audio-videogeneratie, vooral voor modellen die gericht zijn op het genereren van gesynchroniseerde audio-video-uitvoer. Om deze leemte op te vullen, introduceren we VABench, een uitgebreid en multidimensionaal benchmarkraamwerk dat is ontworpen om de mogelijkheden van synchrone audio-videogeneratie systematisch te evalueren. VABench omvat drie primaire taaktypen: tekst-naar-audio-video (T2AV), beeld-naar-audio-video (I2AV) en stereoscopische audio-videogeneratie. Het stelt verder twee belangrijke evaluatiemodules vast die 15 dimensies beslaan. Deze dimensies beoordelen specifiek paarsgewijze overeenkomsten (tekst-video, tekst-audio, video-audio), audio-video-synchronisatie, liip-spraakconsistentie, en zorgvuldig samengestelde audio- en video-vraag-antwoordparen (QA-paren), onder andere. Bovendien behandelt VABench zeven belangrijke inhoudscategorieën: dieren, menselijke geluiden, muziek, omgevingsgeluiden, synchrone fysieke geluiden, complexe scènes en virtuele werelden. Wij bieden een systematische analyse en visualisatie van de evaluatieresultaten, met als doel een nieuwe standaard te vestigen voor het beoordelen van videogeneratiemodellen met synchrone audiomogelijkheden en om de algehele vooruitgang van het vakgebied te bevorderen.
English
Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.
PDF72December 19, 2025