ChatPaper.aiChatPaper

LongAV-Compass: naar een uniforme evaluatie van minuut-schaal audio-visuele generatie over T2AV, I2AV en V2AV

LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

May 25, 2026
Auteurs: Tengfei Liu, Yang Shi, Xuanyu Zhu, Jiafu Tang, Liu Yang, Qixun Wang, Zhuoran Zhang, Yuqi Tang, Fengxiang Wang, Yuhao Dong, Xinlong Chen, Bozhou Li, Bohan Zeng, Yue Ding, Xiaohan Zhang, Jialu Chen, Haotian Wang, Yuanxing Zhang, Pengfei Wan, Leye Wang
cs.AI

Samenvatting

Audio-visuele generatie ontwikkelt zich snel van korte clips naar minutenlange inhoud, terwijl bestaande evaluatieprotocollen grotendeels beperkt blijven tot kortdurende omgevingen. Huidige benchmarks richten zich voornamelijk op 5 tot 10 seconden durende tekstgestuurde generatie en ondersteunen zelden een uniforme evaluatie over tekst-, beeld- en videoconditionering heen. Bovendien bieden ze beperkt inzicht in hoe identiteitsconsistentie, narratieve samenhang en audio-visuele afstemming achteruitgaan over langere temporele horizonnen. Om deze kloof te overbruggen, introduceren we LongAV-Compass, een systematische benchmark voor minutenlange audio-visuele generatie. LongAV-Compass bevat 284 samengestelde testgevallen die tekst-naar-audio-video (T2AV), beeld-naar-audio-video (I2AV) en video-naar-audio-video (V2AV) omvatten, geordend op toepassingsscenario en generatiecomplexiteit. De benchmark combineert taxonomiegestuurde benchmarkconstructie met een uniform evaluatiekader dat MLLM-ondersteunde beoordeling integreert met complementaire perceptuele en multimodale metrieken, waaronder DINO-v2, ArcFace, CLIP en ImageBind. Het kader evalueert meer dan 20 fijnmazige dimensies die betrekking hebben op kwaliteit binnen segmenten, consistentie tussen segmenten, globale narratieve samenhang, semantische afstemming en audio-visuele synchronisatie. Door experimenten op 11 representatieve modellen, samen met validatie van menselijke afstemming, biedt LongAV-Compass een diagnostisch testbed om de beperkingen van huidige systemen te analyseren bij het handhaven van coherente, semantisch afgestemde en temporeel consistente minutenlange audio-visuele generatie over diverse invoermodaliteiten.
English
Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.