AVGen-Bench: Un Benchmark Guidato da Compiti per la Valutazione Multi-Granularità della Generazione Testo-Audio-Video
AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation
April 9, 2026
Autori: Ziwei Zhou, Zeyuan Lai, Rui Wang, Yifan Yang, Zhen Xing, Yuqing Yang, Qi Dai, Lili Qiu, Chong Luo
cs.AI
Abstract
La generazione Audio-Video da Testo (T2AV) sta rapidamente diventando un'interfaccia fondamentale per la creazione di contenuti multimediali, nonostante la sua valutazione rimanga frammentaria. I benchmark esistenti valutano largamente l'audio e il video in modo isolato o si basano su una somiglianza di incorporamento grossolana, non riuscendo a cogliere la correttezza congiunta a grana fine richiesta da prompt realistici. Introduciamo AVGen-Bench, un benchmark orientato ai compiti per la generazione T2AV che presenta prompt di alta qualità in 11 categorie del mondo reale. Per supportare una valutazione completa, proponiamo un framework di valutazione multi-granularità che combina modelli specialistici leggeri con Modelli Linguistici Multimodali di Grande Scala (MLLM), consentendo una valutazione che va dalla qualità percettiva alla controllabilità semantica fine. La nostra valutazione rivela un divario marcato tra una forte estetica audiovisiva e un'affidabilità semantica debole, inclusi fallimenti persistenti nel rendering del testo, nella coerenza del parlato, nel ragionamento fisico e un collasso universale nel controllo dell'intonazione musicale. Il codice e le risorse del benchmark sono disponibili all'indirizzo http://aka.ms/avgenbench.
English
Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.