ChatPaper.aiChatPaper

VABench: Ein umfassender Benchmark für Audio-Video-Generierung

VABench: A Comprehensive Benchmark for Audio-Video Generation

December 10, 2025
papers.authors: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang
cs.AI

papers.abstract

Jüngste Fortschritte in der Videogenerierung sind bemerkenswert und ermöglichen es Modellen, visuell überzeugende Videos mit synchronisiertem Audio zu erzeugen. Während bestehende Benchmarks für die Videogenerierung umfassende Metriken für die visuelle Qualität bieten, fehlt es ihnen an überzeugenden Evaluierungen für die Audio-Video-Generierung, insbesondere für Modelle, die darauf abzielen, synchronisierte Audio-Video-Ausgaben zu erzeugen. Um diese Lücke zu schließen, stellen wir VABench vor, einen umfassenden und mehrdimensionalen Benchmark-Rahmen, der entwickelt wurde, um die Fähigkeiten der synchronen Audio-Video-Generierung systematisch zu bewerten. VABench umfasst drei primäre Aufgabentypen: Text-zu-Audio-Video (T2AV), Bild-zu-Audio-Video (I2AV) und stereophone Audio-Video-Generierung. Darüber hinaus etabliert es zwei Hauptbewertungsmodule, die 15 Dimensionen abdecken. Diese Dimensionen bewerten spezifisch paarweise Ähnlichkeiten (Text-Video, Text-Audio, Video-Audio), Audio-Video-Synchronisation, Lippen-Sprache-Konsistenz sowie sorgfältig kuratierte Audio- und Video-Frage-Antwort-Paare (QA) unter anderem. Zudem deckt VABench sieben Hauptinhaltskategorien ab: Tiere, menschliche Geräusche, Musik, Umgebungsgeräusche, synchrone physikalische Geräusche, komplexe Szenen und virtuelle Welten. Wir bieten eine systematische Analyse und Visualisierung der Bewertungsergebnisse, mit dem Ziel, einen neuen Standard für die Bewertung von Videogenerierungsmodellen mit synchronen Audiofähigkeiten zu etablieren und die umfassende Weiterentwicklung des Feldes zu fördern.
English
Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.
PDF72December 19, 2025