Ecos ao Longo do Tempo: Desbloqueando a Generalização de Duração em Modelos de Geração de Vídeo para Áudio
Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
February 24, 2026
Autores: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Resumo
A escalabilidade do alinhamento multimodal entre vídeo e áudio é um desafio, particularmente devido aos dados limitados e ao descompasso entre as descrições textuais e a informação vídeo a nível de *frame*. Neste trabalho, abordamos o desafio de escalabilidade na geração multimodal-para-áudio, investigando se modelos treinados em instâncias curtas podem generalizar para instâncias mais longas durante os testes. Para enfrentar este desafio, apresentamos redes hierárquicas multimodais, denominadas MMHNet, uma extensão aprimorada dos modelos state-of-the-art de vídeo-para-áudio. A nossa abordagem integra um método hierárquico e Mamba não causal para suportar a geração de áudio de longa duração. O nosso método proposto melhora significativamente a geração de áudio longo, até mais de 5 minutos. Também provamos que treinar com dados curtos e testar com dados longos é possível nas tarefas de geração de vídeo-para-áudio sem treinar nas durações mais longas. Mostramos nas nossas experiências que o nosso método proposto pode alcançar resultados notáveis em *benchmarks* de vídeo longo para áudio, superando trabalhos anteriores em tarefas de vídeo-para-áudio. Além disso, demonstramos a capacidade do nosso modelo em gerar mais de 5 minutos, enquanto os métodos anteriores de vídeo-para-áudio se mostram incapazes de gerar áudio com durações longas.
English
Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.