Trasformatori Generativi Video-Audio con Mascheramento e Sincronicità Migliorata
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity
July 15, 2024
Autori: Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà
cs.AI
Abstract
La generazione video-to-audio (V2A) sfrutta le caratteristiche visive di un video per produrre suoni plausibili che corrispondono alla scena. È fondamentale che l'inizio dei suoni generati sia sincronizzato con le azioni visive a cui sono associati, altrimenti si verificano artefatti di sincronizzazione innaturali. Recenti lavori hanno esplorato l'evoluzione dei generatori di suoni condizionati prima su immagini statiche e poi su caratteristiche video, concentrandosi sulla qualità e sulla corrispondenza semantica mentre ignoravano la sincronizzazione, oppure sacrificando parte della qualità per migliorare esclusivamente la sincronizzazione. In questo lavoro, proponiamo un modello generativo V2A, denominato MaskVAT, che interconnette un codec audio generale ad alta qualità a banda completa con un modello generativo sequenziale mascherato. Questa combinazione consente di modellare contemporaneamente alta qualità audio, corrispondenza semantica e sincronicità temporale. I nostri risultati dimostrano che, unendo un codec di alta qualità con caratteristiche audio-visive pre-addestrate adeguate e una struttura sequenziale parallela, siamo in grado di ottenere risultati altamente sincronizzati da un lato, pur rimanendo competitivi con lo stato dell'arte dei modelli generativi audio non basati su codec. Video di esempio e audio generati sono disponibili su https://maskvat.github.io.
English
Video-to-audio (V2A) generation leverages visual-only video features to
render plausible sounds that match the scene. Importantly, the generated sound
onsets should match the visual actions that are aligned with them, otherwise
unnatural synchronization artifacts arise. Recent works have explored the
progression of conditioning sound generators on still images and then video
features, focusing on quality and semantic matching while ignoring
synchronization, or by sacrificing some amount of quality to focus on improving
synchronization only. In this work, we propose a V2A generative model, named
MaskVAT, that interconnects a full-band high-quality general audio codec with a
sequence-to-sequence masked generative model. This combination allows modeling
both high audio quality, semantic matching, and temporal synchronicity at the
same time. Our results show that, by combining a high-quality codec with the
proper pre-trained audio-visual features and a sequence-to-sequence parallel
structure, we are able to yield highly synchronized results on one hand, whilst
being competitive with the state of the art of non-codec generative audio
models. Sample videos and generated audios are available at
https://maskvat.github.io .