ChatPaper.aiChatPaper

VABench: 오디오-비디오 생성을 위한 종합 벤치마크

VABench: A Comprehensive Benchmark for Audio-Video Generation

December 10, 2025
저자: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang
cs.AI

초록

최근 비디오 생성 기술은 눈에 띄게 발전하여 시각적으로 매력적인 비디오와 동기화된 오디오를 생성하는 모델이 등장했습니다. 기존 비디오 생성 벤치마크는 시각적 품질에 대한 포괄적인 평가 지표를 제공하지만, 특히 동기화된 오디오-비디오 출력을 목표로 하는 모델에 대한 설득력 있는 오디오-비디오 생성 평가가 부족합니다. 이러한 격차를 해결하기 위해 우리는 동기식 오디오-비디오 생성 능력을 체계적으로 평가하도록 설계된 포괄적이고 다차원적인 벤치마크 프레임워크인 VABench를 소개합니다. VABench는 텍스트-오디오-비디오(T2AV), 이미지-오디오-비디오(I2AV), 스테레오 오디오-비디오 생성이라는 세 가지 주요 작업 유형을 포괄합니다. 또한 15개 차원을 아우르는 두 가지 주요 평가 모듈을 구축했습니다. 이러한 차원들은 특히 쌍별 유사성(텍스트-비디오, 텍스트-오디오, 비디오-오디오), 오디오-비디오 동기화, 입모양-음성 일관성, 그리고 신중하게 선별된 오디오 및 비디오 질의응답(QA) 쌍 등을 평가합니다. 더 나아가 VABench는 동물, 인간 소리, 음악, 환경 음향, 동기화된 물리적 소리, 복잡한 장면, 가상 세계 등 일곱 가지 주요 콘텐츠 범주를 다룹니다. 우리는 평가 결과에 대한 체계적인 분석과 시각화를 제공하여 동기식 오디오 기능을 갖춘 비디오 생성 모델 평가의 새로운 표준을 수립하고 해당 분야의 포괄적인 발전을 촉진하는 것을 목표로 합니다.
English
Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.
PDF72December 19, 2025