^RFLAV: Rolling Flow matching per la generazione infinita di audio e video

Abstract

La generazione congiunta audio-video (AV) rimane una sfida significativa nell'ambito dell'IA generativa, principalmente a causa di tre requisiti critici: la qualità dei campioni generati, la sincronizzazione multimodale e la coerenza temporale, con tracce audio che corrispondano ai dati visivi e viceversa, e una durata illimitata del video. In questo articolo, presentiamo , una nuova architettura basata su transformer che affronta tutte le principali sfide della generazione AV. Esploriamo tre distinti moduli di interazione cross-modale, con il nostro modulo leggero di fusione temporale che si rivela l'approccio più efficace e computazionalmente efficiente per allineare le modalità audio e visive. I nostri risultati sperimentali dimostrano che supera i modelli state-of-the-art esistenti nei compiti di generazione multimodale AV. Il nostro codice e i checkpoint sono disponibili all'indirizzo https://github.com/ErgastiAlex/R-FLAV.

English

Joint audio-video (AV) generation is still a significant challenge in generative AI, primarily due to three critical requirements: quality of the generated samples, seamless multimodal synchronization and temporal coherence, with audio tracks that match the visual data and vice versa, and limitless video duration. In this paper, we present , a novel transformer-based architecture that addresses all the key challenges of AV generation. We explore three distinct cross modality interaction modules, with our lightweight temporal fusion module emerging as the most effective and computationally efficient approach for aligning audio and visual modalities. Our experimental results demonstrate that outperforms existing state-of-the-art models in multimodal AV generation tasks. Our code and checkpoints are available at https://github.com/ErgastiAlex/R-FLAV.

^RFLAV: Rolling Flow matching per la generazione infinita di audio e video

^RFLAV: Rolling Flow matching for infinite Audio Video generation

Abstract

Support