ChatPaper.aiChatPaper

Échos dans le temps : Libérer la généralisation de longueur dans les modèles de génération audio à partir de vidéo

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

February 24, 2026
Auteurs: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Résumé

L'alignement multimodal entre la vidéo et l'audio à grande échelle est difficile, particulièrement en raison du manque de données et de l'inadéquation entre les descriptions textuelles et les informations vidéo au niveau des images. Dans ce travail, nous abordons le défi de la mise à l'échelle dans la génération multimodale-vers-audio, en examinant si des modèles entraînés sur de courts extraits peuvent généraliser à des séquences plus longues lors des tests. Pour relever ce défi, nous présentons des réseaux hiérarchiques multimodaux, appelés MMHNet, une extension améliorée des modèles state-of-the-art de vidéo-vers-audio. Notre approche intègre une méthode hiérarchique et un Mamba non causal pour supporter la génération audio de longue durée. Notre méthode proposée améliore significativement la génération d'audio long, jusqu'à plus de 5 minutes. Nous démontrons également qu'il est possible d'entraîner sur du court et de tester sur du long dans les tâches de génération vidéo-vers-audio sans entraînement sur des durées plus longues. Nos expériences montrent que notre méthode peut obtenir des résultats remarquables sur des benchmarks de génération audio à partir de vidéos longues, surpassant les travaux antérieurs dans les tâches vidéo-vers-audio. De plus, nous démontrons la capacité de notre modèle à générer plus de 5 minutes d'audio, alors que les méthodes vidéo-vers-audio précédentes échouent à générer sur de longues durées.
English
Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.
PDF02February 28, 2026