ChatPaper.aiChatPaper

Ecos a Través del Tiempo: Desbloqueando la Generalización de Longitud en Modelos de Generación de Vídeo a Audio

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

February 24, 2026
Autores: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji
cs.AI

Resumen

La escalabilidad de la alineación multimodal entre video y audio es un desafío, particularmente debido a la limitación de datos y al desajuste entre las descripciones textuales y la información de video a nivel de fotograma. En este trabajo, abordamos el desafío de escalabilidad en la generación multimodal a audio, examinando si los modelos entrenados con instancias cortas pueden generalizar a instancias más largas durante las pruebas. Para abordar este desafío, presentamos redes jerárquicas multimodales, denominadas MMHNet, una extensión mejorada de los modelos estado del arte de video a audio. Nuestro enfoque integra un método jerárquico y Mamba no causal para apoyar la generación de audio de larga duración. Nuestro método propuesto mejora significativamente la generación de audio largo hasta más de 5 minutos. También demostramos que es posible entrenar con videos cortos y probar con videos largos en las tareas de generación de video a audio sin necesidad de entrenar con duraciones más largas. Mostramos en nuestros experimentos que nuestro método propuesto puede lograr resultados notables en benchmarks de audio a partir de videos largos, superando a trabajos anteriores en tareas de video a audio. Además, demostramos la capacidad de nuestro modelo para generar más de 5 minutos, mientras que los métodos anteriores de video a audio no logran generar audio con duraciones largas.
English
Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.
PDF02February 28, 2026