^RFLAV: Ajuste de flujo continuo para la generación infinita de audio y video

Resumen

La generación conjunta de audio y video (AV) sigue siendo un desafío significativo en la inteligencia artificial generativa, principalmente debido a tres requisitos críticos: la calidad de las muestras generadas, la sincronización multimodal fluida y la coherencia temporal, con pistas de audio que coincidan con los datos visuales y viceversa, y una duración ilimitada del video. En este artículo, presentamos , una arquitectura novedosa basada en transformadores que aborda todos los desafíos clave de la generación AV. Exploramos tres módulos distintos de interacción entre modalidades, con nuestro módulo de fusión temporal ligero emergiendo como el enfoque más efectivo y computacionalmente eficiente para alinear las modalidades de audio y visuales. Nuestros resultados experimentales demuestran que supera a los modelos más avanzados existentes en tareas de generación multimodal AV. Nuestro código y puntos de control están disponibles en https://github.com/ErgastiAlex/R-FLAV.

English

Joint audio-video (AV) generation is still a significant challenge in generative AI, primarily due to three critical requirements: quality of the generated samples, seamless multimodal synchronization and temporal coherence, with audio tracks that match the visual data and vice versa, and limitless video duration. In this paper, we present , a novel transformer-based architecture that addresses all the key challenges of AV generation. We explore three distinct cross modality interaction modules, with our lightweight temporal fusion module emerging as the most effective and computationally efficient approach for aligning audio and visual modalities. Our experimental results demonstrate that outperforms existing state-of-the-art models in multimodal AV generation tasks. Our code and checkpoints are available at https://github.com/ErgastiAlex/R-FLAV.