^RFLAV: Rolling Flow matching per la generazione infinita di audio e video
^RFLAV: Rolling Flow matching for infinite Audio Video generation
March 11, 2025
Autori: Alex Ergasti, Giuseppe Gabriele Tarollo, Filippo Botti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati
cs.AI
Abstract
La generazione congiunta audio-video (AV) rimane una sfida significativa nell'ambito dell'IA generativa, principalmente a causa di tre requisiti critici: la qualità dei campioni generati, la sincronizzazione multimodale e la coerenza temporale, con tracce audio che corrispondano ai dati visivi e viceversa, e una durata illimitata del video. In questo articolo, presentiamo , una nuova architettura basata su transformer che affronta tutte le principali sfide della generazione AV. Esploriamo tre distinti moduli di interazione cross-modale, con il nostro modulo leggero di fusione temporale che si rivela l'approccio più efficace e computazionalmente efficiente per allineare le modalità audio e visive. I nostri risultati sperimentali dimostrano che supera i modelli state-of-the-art esistenti nei compiti di generazione multimodale AV. Il nostro codice e i checkpoint sono disponibili all'indirizzo https://github.com/ErgastiAlex/R-FLAV.
English
Joint audio-video (AV) generation is still a significant challenge in
generative AI, primarily due to three critical requirements: quality of the
generated samples, seamless multimodal synchronization and temporal coherence,
with audio tracks that match the visual data and vice versa, and limitless
video duration. In this paper, we present , a novel transformer-based
architecture that addresses all the key challenges of AV generation. We explore
three distinct cross modality interaction modules, with our lightweight
temporal fusion module emerging as the most effective and computationally
efficient approach for aligning audio and visual modalities. Our experimental
results demonstrate that outperforms existing state-of-the-art models
in multimodal AV generation tasks. Our code and checkpoints are available at
https://github.com/ErgastiAlex/R-FLAV.