ChatPaper.aiChatPaper

AVGen-Bench: Um Benchmark Orientado a Tarefas para Avaliação Multi-Granular da Geração de Texto para Áudio-Vídeo

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

April 9, 2026
Autores: Ziwei Zhou, Zeyuan Lai, Rui Wang, Yifan Yang, Zhen Xing, Yuqing Yang, Qi Dai, Lili Qiu, Chong Luo
cs.AI

Resumo

A geração Texto-para-Áudio-Vídeo (T2AV) está rapidamente a tornar-se uma interface central para a criação de media, mas a sua avaliação permanece fragmentada. Os benchmarks existentes avaliam maioritariamente o áudio e o vídeo de forma isolada ou dependem de semelhanças de embeddings de baixa resolução, falhando em capturar a correção conjunta de alto nível exigida por instruções realistas. Apresentamos o AVGen-Bench, um benchmark orientado a tarefas para a geração T2AV, que apresenta instruções de alta qualidade em 11 categorias do mundo real. Para suportar uma avaliação abrangente, propomos um quadro de avaliação multi-granular que combina modelos especializados leves com Modelos de Linguagem de Grande Escala Multimodais (MLLMs), permitindo a avaliação desde a qualidade perceptual até à controlabilidade semântica de alto nível. A nossa avaliação revela um fosso pronunciado entre uma forte estética audiovisual e uma fraca fiabilidade semântica, incluindo falhas persistentes na renderização de texto, coerência de discurso, raciocínio físico e uma quebra universal no controlo de afinação musical. O código e os recursos do benchmark estão disponíveis em http://aka.ms/avgenbench.
English
Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.
PDF12April 14, 2026