ChatPaper.aiChatPaper

Echi nel Tempo: Sbloccare la Generalizzazione della Lunghezza nei Modelli di Generazione Video-Audio

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

February 24, 2026
Autori: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Abstract

La scalabilità dell'allineamento multimodale tra video e audio è una sfida complessa, principalmente a causa della limitatezza dei dati e dello scostamento tra le descrizioni testuali e le informazioni video a livello di fotogramma. In questo lavoro, affrontiamo la sfida del scaling nella generazione multimodale-to-audio, investigando se modelli addestrati su istanze brevi possano generalizzare a istanze più lunghe durante i test. Per superare questa sfida, presentiamo le reti multimodali gerarchiche, denominate MMHNet, un'estensione potenziata dei modelli state-of-the-art per la generazione video-to-audio. Il nostro approccio integra un metodo gerarchico e l'architettura Mamma non causale per supportare la generazione di audio di lunga durata. Il metodo proposto migliora significativamente la generazione di audio lungo, fino a oltre 5 minuti. Dimostriamo inoltre che è possibile addestrare su contenuti brevi e testare su contenuti lunghi nelle attività di generazione video-to-audio senza un addestramento specifico su durate maggiori. I nostri esperimenti mostrano che il metodo proposto può ottenere risultati notevoli su benchmark di generazione audio da video lunghi, superando i lavori precedenti nei compiti video-to-audio. Inoltre, evidenziamo la capacità del nostro modello di generare audio per oltre 5 minuti, laddove i metodi video-to-audio esistenti mostrano limitazioni nella generazione di durate prolungate.
English
Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.
PDF12March 16, 2026