ChatPaper.aiChatPaper

Echoes Over Time: Längengeneralisierung in Video-zu-Audio-Generierungsmodellen

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

February 24, 2026
Autoren: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Zusammenfassung

Die Skalierung multimodaler Abgleichung zwischen Video und Audio stellt eine große Herausforderung dar, insbesondere aufgrund limitierter Daten und der Diskrepanz zwischen Textbeschreibungen und frame-basierten Videoinformationen. In dieser Arbeit gehen wir die Skalierungsproblematik bei der multimodalen Audioerzeugung an und untersuchen, ob Modelle, die mit kurzen Instanzen trainiert wurden, sich auf längere Instanzen während des Tests verallgemeinern lassen. Um diese Herausforderung zu bewältigen, stellen wir multimodale hierarchische Netzwerke vor, genannt MMHNet, eine erweiterte Version modernster Video-zu-Audio-Modelle. Unser Ansatz integriert eine hierarchische Methode und nicht-kausales Mamba, um die Erzeugung langformatiger Audiodaten zu unterstützen. Unsere vorgeschlagene Methode verbessert die Erzeugung langer Audiodateien von mehr als 5 Minuten signifikant. Wir beweisen zudem, dass das Trainieren mit kurzen und Testen mit langen Sequenzen in Video-zu-Audio-Aufgaben möglich ist, ohne mit längeren Zeitdauern trainieren zu müssen. Unsere Experimente zeigen, dass unsere Methode bemerkenswerte Ergebnisse auf Benchmarks für lange Videos erzielen und frühere Arbeiten in Video-zu-Audio-Aufgaben übertreffen kann. Darüber hinaus demonstrieren wir die Fähigkeit unseres Modells, Audiodaten von mehr als 5 Minuten Länge zu generieren, während bisherige Video-zu-Audio-Verfahren bei der Generierung langer Zeitdauern versagen.
English
Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.
PDF02February 28, 2026