LongAV-Compass: К унифицированной оценке генерации аудиовизуального контента минутного масштаба в задачах T2AV, I2AV и V2AV

Аннотация

Аудиовизуальная генерация стремительно развивается от коротких клипов до минутного контента, в то время как существующие протоколы оценки в основном ограничены короткими форматами. Существующие бенчмарки в первую очередь сосредоточены на генерации длительностью 5–10 секунд на основе текста и редко поддерживают унифицированную оценку для модальностей на основе текста, изображения и видео. Кроме того, они дают ограниченное понимание того, как согласованность идентичности, связность повествования и аудиовизуальное соответствие ухудшаются на протяжении длительных временных горизонтов. Чтобы восполнить этот пробел, мы представляем LongAV-Compass — систематический бенчмарк для минутной аудиовизуальной генерации. LongAV-Compass содержит 284 тщательно отобранных тестовых случая, охватывающих генерацию текст-аудио-видео (T2AV), изображение-аудио-видео (I2AV) и видео-аудио-видео (V2AV), организованных по сценариям применения и сложности генерации. Бенчмарк сочетает построение на основе таксономии с единой оценочной структурой, которая интегрирует оценку с помощью MLLM с дополнительными перцептивными и мультимодальными метриками, включая DINO-v2, ArcFace, CLIP и ImageBind. Эта структура оценивает более 20 детализированных аспектов, охватывающих качество внутри сегмента, согласованность между сегментами, глобальную связность повествования, семантическое соответствие и аудиовизуальную синхронизацию. Посредством экспериментов на 11 репрезентативных моделях вместе с валидацией по соответствию человеческим оценкам LongAV-Compass предоставляет диагностическую среду для анализа ограничений текущих систем в поддержании когерентной, семантически согласованной и временно́й непрерывной минутной аудиовизуальной генерации для различных входных модальностей.

English

Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.