ChatPaper.aiChatPaper

T2AV-Compass: Op Weg naar een Uniforme Evaluatie voor Tekst-naar-Audio-Video Generatie

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

December 24, 2025
Auteurs: Zhe Cao, Tao Wang, Jiaming Wang, Yanghai Wang, Yuanxing Zhang, Jialu Chen, Miao Deng, Jiahao Wang, Yubin Guo, Chenxi Liao, Yize Zhang, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

Samenvatting

Text-to-Audio-Video (T2AV)-generatie heeft als doel om temporeel coherente video en semantisch gesynchroniseerde audio te synthetiseren vanuit natuurlijke taal, maar de evaluatie ervan blijft gefragmenteerd, vaak steunend op unimodale metrieken of nauw gedefinieerde benchmarks die geen rekening houden met cross-modale alignering, instructievolging en perceptueel realisme onder complexe prompts. Om deze beperking aan te pakken, presenteren wij T2AV-Compass, een uniforme benchmark voor uitgebreide evaluatie van T2AV-systemen, bestaande uit 500 diverse en complexe prompts die zijn geconstrueerd via een taxonomie-gestuurde pijplijn om semantische rijkdom en fysieke plausibiliteit te waarborgen. Daarnaast introduceert T2AV-Compass een dual-level evaluatieraamwerk dat objectieve signaalniveau-metrieken integreert voor videokwaliteit, audiokwaliteit en cross-modale alignering, met een subjectief MLLM-as-a-Judge-protocol voor het beoordelen van instructievolging en realisme. Uitgebreide evaluatie van 11 representatieve T2AV-systemen toont aan dat zelfs de sterkste modellen aanzienlijk tekortschieten ten opzichte van menselijk realisme en cross-modale consistentie, met aanhoudende tekortkomingen in audiorealisme, fijnmazige synchronisatie, instructievolging, enz. Deze resultaten duiden op significante verbeteringsmogelijkheden voor toekomstige modellen en benadrukken de waarde van T2AV-Compass als een uitdagende en diagnostische testomgeving voor het bevorderen van tekst-naar-audio-video-generatie.
English
Text-to-Audio-Video (T2AV) generation aims to synthesize temporally coherent video and semantically synchronized audio from natural language, yet its evaluation remains fragmented, often relying on unimodal metrics or narrowly scoped benchmarks that fail to capture cross-modal alignment, instruction following, and perceptual realism under complex prompts. To address this limitation, we present T2AV-Compass, a unified benchmark for comprehensive evaluation of T2AV systems, consisting of 500 diverse and complex prompts constructed via a taxonomy-driven pipeline to ensure semantic richness and physical plausibility. Besides, T2AV-Compass introduces a dual-level evaluation framework that integrates objective signal-level metrics for video quality, audio quality, and cross-modal alignment with a subjective MLLM-as-a-Judge protocol for instruction following and realism assessment. Extensive evaluation of 11 representative T2AVsystems reveals that even the strongest models fall substantially short of human-level realism and cross-modal consistency, with persistent failures in audio realism, fine-grained synchronization, instruction following, etc. These results indicate significant improvement room for future models and highlight the value of T2AV-Compass as a challenging and diagnostic testbed for advancing text-to-audio-video generation.
PDF221December 26, 2025