ChatPaper.aiChatPaper

LongAV-Compass: К унифицированной оценке генерации аудиовизуального контента минутного масштаба в задачах T2AV, I2AV и V2AV

LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

May 25, 2026
Авторы: Tengfei Liu, Yang Shi, Xuanyu Zhu, Jiafu Tang, Liu Yang, Qixun Wang, Zhuoran Zhang, Yuqi Tang, Fengxiang Wang, Yuhao Dong, Xinlong Chen, Bozhou Li, Bohan Zeng, Yue Ding, Xiaohan Zhang, Jialu Chen, Haotian Wang, Yuanxing Zhang, Pengfei Wan, Leye Wang
cs.AI

Аннотация

Аудиовизуальная генерация стремительно развивается от коротких клипов до минутного контента, в то время как существующие протоколы оценки в основном ограничены короткими форматами. Существующие бенчмарки в первую очередь сосредоточены на генерации длительностью 5–10 секунд на основе текста и редко поддерживают унифицированную оценку для модальностей на основе текста, изображения и видео. Кроме того, они дают ограниченное понимание того, как согласованность идентичности, связность повествования и аудиовизуальное соответствие ухудшаются на протяжении длительных временных горизонтов. Чтобы восполнить этот пробел, мы представляем LongAV-Compass — систематический бенчмарк для минутной аудиовизуальной генерации. LongAV-Compass содержит 284 тщательно отобранных тестовых случая, охватывающих генерацию текст-аудио-видео (T2AV), изображение-аудио-видео (I2AV) и видео-аудио-видео (V2AV), организованных по сценариям применения и сложности генерации. Бенчмарк сочетает построение на основе таксономии с единой оценочной структурой, которая интегрирует оценку с помощью MLLM с дополнительными перцептивными и мультимодальными метриками, включая DINO-v2, ArcFace, CLIP и ImageBind. Эта структура оценивает более 20 детализированных аспектов, охватывающих качество внутри сегмента, согласованность между сегментами, глобальную связность повествования, семантическое соответствие и аудиовизуальную синхронизацию. Посредством экспериментов на 11 репрезентативных моделях вместе с валидацией по соответствию человеческим оценкам LongAV-Compass предоставляет диагностическую среду для анализа ограничений текущих систем в поддержании когерентной, семантически согласованной и временно́й непрерывной минутной аудиовизуальной генерации для различных входных модальностей.
English
Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.