Echoes Door de Tijd: Het Ontgrendelen van Lengtegeneraliatie in Video-naar-Audio Generatiemodellen
Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
February 24, 2026
Auteurs: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji
cs.AI
Samenvatting
Het schalen van multimodale afstemming tussen video en audio is een uitdaging, vooral door beperkte data en de discrepantie tussen tekstbeschrijvingen en frameniveau video-informatie. In dit werk pakken we de schaaluitdaging aan bij multimodale-naar-audiogeneratie, waarbij we onderzoeken of modellen getraind op korte fragmenten kunnen generaliseren naar langere fragmenten tijdens tests. Om deze uitdaging aan te gaan, presenteren we multimodale hiërarchische netwerken, genaamd MMHNet, een verbeterde extensie van state-of-the-art video-naar-audiomodellen. Onze aanpak integreert een hiërarchische methode en niet-causale Mamba om langere audiogeneratie te ondersteunen. Onze voorgestelde methode verbetert de generatie van lange audio aanzienlijk tot meer dan 5 minuten. We bewijzen ook dat trainen op korte fragmenten en testen op lange fragmenten mogelijk is in video-naar-audiogeneratietaken zonder training op langere duur. Onze experimenten tonen aan dat onze voorgestelde methode opmerkelijke resultaten behaalt op long-video-naar-audiobenchmarks, waarbij eerdere werken in video-naar-audiotaken worden overtroffen. Bovendien demonstreren we de capaciteit van ons model om meer dan 5 minuten te genereren, terwijl eerdere video-naar-audiomethoden tekortschieten in het genereren van lange duur.
English
Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.