^RFLAV: Ajuste de flujo continuo para la generación infinita de audio y video
^RFLAV: Rolling Flow matching for infinite Audio Video generation
March 11, 2025
Autores: Alex Ergasti, Giuseppe Gabriele Tarollo, Filippo Botti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati
cs.AI
Resumen
La generación conjunta de audio y video (AV) sigue siendo un desafío significativo en la inteligencia artificial generativa, principalmente debido a tres requisitos críticos: la calidad de las muestras generadas, la sincronización multimodal fluida y la coherencia temporal, con pistas de audio que coincidan con los datos visuales y viceversa, y una duración ilimitada del video. En este artículo, presentamos , una arquitectura novedosa basada en transformadores que aborda todos los desafíos clave de la generación AV. Exploramos tres módulos distintos de interacción entre modalidades, con nuestro módulo de fusión temporal ligero emergiendo como el enfoque más efectivo y computacionalmente eficiente para alinear las modalidades de audio y visuales. Nuestros resultados experimentales demuestran que supera a los modelos más avanzados existentes en tareas de generación multimodal AV. Nuestro código y puntos de control están disponibles en https://github.com/ErgastiAlex/R-FLAV.
English
Joint audio-video (AV) generation is still a significant challenge in
generative AI, primarily due to three critical requirements: quality of the
generated samples, seamless multimodal synchronization and temporal coherence,
with audio tracks that match the visual data and vice versa, and limitless
video duration. In this paper, we present , a novel transformer-based
architecture that addresses all the key challenges of AV generation. We explore
three distinct cross modality interaction modules, with our lightweight
temporal fusion module emerging as the most effective and computationally
efficient approach for aligning audio and visual modalities. Our experimental
results demonstrate that outperforms existing state-of-the-art models
in multimodal AV generation tasks. Our code and checkpoints are available at
https://github.com/ErgastiAlex/R-FLAV.Summary
AI-Generated Summary