Transformadores Generativos de Vídeo para Áudio com Máscara e Sincronicidade Aprimorada
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity
July 15, 2024
Autores: Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà
cs.AI
Resumo
A geração de vídeo para áudio (V2A) aproveita características visuais exclusivas do vídeo para produzir sons plausíveis que correspondam à cena. É crucial que os inícios de som gerados correspondam às ações visuais alinhadas a eles, caso contrário, surgem artefatos de sincronização não naturais. Trabalhos recentes têm explorado a progressão de condicionamento de geradores de som em imagens estáticas e depois em características de vídeo, focando na qualidade e correspondência semântica, enquanto ignoram a sincronização, ou sacrificando um pouco da qualidade para melhorar apenas a sincronização. Neste trabalho, propomos um modelo generativo V2A, chamado MaskVAT, que interconecta um codec de áudio geral de alta qualidade de banda total com um modelo generativo mascarado sequencial. Essa combinação permite modelar simultaneamente alta qualidade de áudio, correspondência semântica e sincronia temporal. Nossos resultados mostram que, ao combinar um codec de alta qualidade com as características audiovisuais pré-treinadas adequadas e uma estrutura paralela sequencial, somos capazes de obter resultados altamente sincronizados, ao mesmo tempo em que competimos com o estado da arte de modelos generativos de áudio não baseados em codec. Vídeos de amostra e áudios gerados estão disponíveis em https://maskvat.github.io.
English
Video-to-audio (V2A) generation leverages visual-only video features to
render plausible sounds that match the scene. Importantly, the generated sound
onsets should match the visual actions that are aligned with them, otherwise
unnatural synchronization artifacts arise. Recent works have explored the
progression of conditioning sound generators on still images and then video
features, focusing on quality and semantic matching while ignoring
synchronization, or by sacrificing some amount of quality to focus on improving
synchronization only. In this work, we propose a V2A generative model, named
MaskVAT, that interconnects a full-band high-quality general audio codec with a
sequence-to-sequence masked generative model. This combination allows modeling
both high audio quality, semantic matching, and temporal synchronicity at the
same time. Our results show that, by combining a high-quality codec with the
proper pre-trained audio-visual features and a sequence-to-sequence parallel
structure, we are able to yield highly synchronized results on one hand, whilst
being competitive with the state of the art of non-codec generative audio
models. Sample videos and generated audios are available at
https://maskvat.github.io .