LongAV-Compass: Auf dem Weg zu einer einheitlichen Evaluation minutenlanger audiovisueller Generierung für T2AV, I2AV und V2AV

Zusammenfassung

Die audiovisuelle Generierung entwickelt sich rasant von kurzen Clips zu minutenlangen Inhalten, während bestehende Evaluierungsprotokolle weitgehend auf Kurzformate beschränkt bleiben. Aktuelle Benchmarks konzentrieren sich hauptsächlich auf textgesteuerte Generierung von 5–10 Sekunden und unterstützen selten eine einheitliche Bewertung über Text-, Bild- und Videosteuerungsmodalitäten hinweg. Darüber hinaus geben sie nur begrenzte Einblicke, wie sich Identitätskonsistenz, narrative Kohärenz und audiovisuelle Abstimmung über längere Zeiträume hinweg verschlechtern. Um diese Lücke zu schließen, stellen wir LongAV-Compass vor, einen systematischen Benchmark für minutenlange audiovisuelle Generierung. LongAV-Compass umfasst 284 kuratierte Testfälle, die Text-zu-Audio-Video (T2AV), Bild-zu-Audio-Video (I2AV) und Video-zu-Audio-Video (V2AV) abdecken, geordnet nach Anwendungsszenario und Generierungskomplexität. Der Benchmark kombiniert eine taxonomiegestützte Benchmark-Konstruktion mit einem einheitlichen Bewertungsrahmen, der MLLM-gestützte Bewertung mit komplementären perzeptuellen und multimodalen Metriken integriert, darunter DINO-v2, ArcFace, CLIP und ImageBind. Der Rahmen bewertet mehr als 20 feinkörnige Dimensionen, die die Qualität innerhalb von Segmenten, segmentübergreifende Konsistenz, globale narrative Kohärenz, semantische Abstimmung und audiovisuelle Synchronisation abdecken. Durch Experimente mit 11 repräsentativen Modellen sowie Validierung mittels menschlicher Übereinstimmung bietet LongAV-Compass einen diagnostischen Testbed zur Analyse der Einschränkungen aktueller Systeme bei der Erzeugung kohärenter, semantisch abgestimmter und zeitlich konsistenter minutenlanger audiovisueller Inhalte über verschiedene Eingabemodalitäten hinweg.

English

Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.