LongAV-Compass: Rumo a uma Avaliação Unificada da Geração Audiovisual em Escala de Minutos em T2AV, I2AV e V2AV

Resumo

A geração audiovisual está avançando rapidamente de clipes curtos para conteúdo de um minuto de duração, enquanto os protocolos de avaliação existentes permanecem em grande parte limitados a contextos de formato curto. Os benchmarks atuais focam principalmente na geração condicionada a texto de 5 a 10 segundos e raramente oferecem suporte a uma avaliação unificada entre modalidades de condicionamento como texto, imagem e vídeo. Além disso, fornecem insights limitados sobre como a consistência de identidade, a coerência narrativa e o alinhamento audiovisual se degradam ao longo de horizontes temporais estendidos. Para preencher essa lacuna, apresentamos o LongAV-Compass, um benchmark sistemático para geração audiovisual de um minuto. O LongAV-Compass contém 284 casos de teste selecionados, abrangendo texto-para-áudio-vídeo (T2AV), imagem-para-áudio-vídeo (I2AV) e vídeo-para-áudio-vídeo (V2AV), organizados por cenário de aplicação e complexidade de geração. O benchmark combina a construção guiada por taxonomia com uma estrutura unificada de avaliação que integra a avaliação assistida por MLLM a métricas perceptuais e multimodais complementares, incluindo DINO-v2, ArcFace, CLIP e ImageBind. A estrutura avalia mais de 20 dimensões granulares, abrangendo qualidade intrassegmento, consistência interssegmento, coerência narrativa global, alinhamento semântico e sincronização audiovisual. Por meio de experimentos em 11 modelos representativos, juntamente com validação de alinhamento humano, o LongAV-Compass fornece um ambiente de teste diagnóstico para analisar as limitações dos sistemas atuais em manter geração audiovisual coerente, semanticamente alinhada e temporalmente consistente em escala de minuto, considerando diversas modalidades de entrada.

English

Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.