ChatPaper.aiChatPaper

AVGen-Bench : Un Benchmark Orienté Tâches pour l'Évaluation Multi-Granulaire de la Génération Texte-Vers-Audio-Vidéo

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

April 9, 2026
Auteurs: Ziwei Zhou, Zeyuan Lai, Rui Wang, Yifan Yang, Zhen Xing, Yuqing Yang, Qi Dai, Lili Qiu, Chong Luo
cs.AI

Résumé

La génération Texte-vers-Audio-Vidéo (T2AV) devient rapidement une interface centrale pour la création de médias, mais son évaluation reste fragmentée. Les benchmarks existants évaluent largement l'audio et la vidéo de manière isolée ou s'appuient sur une similarité d'embedding grossière, ne parvenant pas à capturer la justesse conjointe et granulaire requise par des prompts réalistes. Nous présentons AVGen-Bench, un benchmark axé sur les tâches pour la génération T2AV, comprenant des prompts de haute qualité couvrant 11 catégories du monde réel. Pour soutenir une évaluation complète, nous proposons un cadre d'évaluation multi-granulaire qui combine des modèles spécialisés légers avec des Modèles de Langue Multimodaux (MLLM), permettant une évaluation allant de la qualité perceptuelle à la contrôlabilité sémantique fine. Notre évaluation révèle un écart prononcé entre une forte esthétique audiovisuelle et une faible fiabilité sémantique, incluant des échecs persistants dans le rendu du texte, la cohérence de la parole, le raisonnement physique, et une défaillance universelle dans le contrôle de la hauteur musicale. Le code et les ressources du benchmark sont disponibles à l'adresse http://aka.ms/avgenbench.
English
Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.
PDF12April 14, 2026