LongAV-Compass : Vers une évaluation unifiée de la génération audiovisuelle à l'échelle de la minute pour T2AV, I2AV et V2AV

Résumé

La génération audiovisuelle progresse rapidement, passant de courts extraits à des contenus d'une minute, tandis que les protocoles d'évaluation existants restent largement confinés aux formats courts. Les référentiels actuels se concentrent principalement sur la génération conditionnée par du texte de 5 à 10 secondes et soutiennent rarement une évaluation unifiée couvrant les modalités textuelles, image et vidéo. De plus, ils offrent un aperçu limité de la façon dont la cohérence d'identité, la cohérence narrative et l'alignement audiovisuel se dégradent sur des horizons temporels étendus. Pour combler cette lacune, nous présentons LongAV-Compass, un référentiel systématique pour la génération audiovisuelle d'une minute. LongAV-Compass contient 284 cas de test organisés couvrant la génération texte-vers-audio-vidéo (T2AV), image-vers-audio-vidéo (I2AV) et vidéo-vers-audio-vidéo (V2AV), classés par scénario d'application et complexité de génération. Le référentiel combine une construction guidée par une taxonomie avec un cadre d'évaluation unifié qui intègre une évaluation assistée par MLLM et des métriques perceptuelles et multimodales complémentaires, notamment DINO-v2, ArcFace, CLIP et ImageBind. Le cadre évalue plus de 20 dimensions fines couvrant la qualité intra-segment, la cohérence inter-segment, la cohérence narrative globale, l'alignement sémantique et la synchronisation audiovisuelle. À travers des expériences sur 11 modèles représentatifs ainsi qu'une validation par alignement humain, LongAV-Compass fournit un banc d'essai diagnostique pour analyser les limites des systèmes actuels à soutenir une génération audiovisuelle cohérente, alignée sémantiquement et temporellement cohérente à l'échelle de la minute, toutes modalités d'entrée confondues.

English

Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.