Эхо сквозь время: Раскрытие обобщения по длительности в моделях генерации аудио из видео
Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
February 24, 2026
Авторы: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Аннотация
Масштабирование многомодального согласования между видео и аудио является сложной задачей, особенно из-за ограниченности данных и несоответствия между текстовыми описаниями и покадровой видеоинформацией. В данной работе мы решаем проблему масштабирования в задачах многомодальной генерации аудио, исследуя, могут ли модели, обученные на коротких примерах, обобщаться на более длинные в процессе тестирования. Для решения этой задачи мы представляем иерархические многомодальные сети, названные MMHNet, — усовершенствованное расширение современных моделей видео-в-аудио. Наш подход интегрирует иерархический метод и некаузальную Mamba для поддержки генерации длинных аудио. Предложенный метод значительно улучшает генерацию длинного аудио продолжительностью более 5 минут. Мы также доказываем, что стратегия «обучение на коротком, тестирование на длинном» возможна в задачах видео-в-аудио без обучения на более длительных отрезках. Наши эксперименты показывают, что предложенный метод позволяет достичь выдающихся результатов на бенчмарках для длинных видео, превосходя предыдущие работы в задачах видео-в-аудио. Более того, мы демонстрируем способность нашей модели генерировать аудио длительностью более 5 минут, в то время как предыдущие методы видео-в-аудио не справляются с генерацией длинных последовательностей.
English
Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.