Transformadores Generativos de Vídeo para Áudio com Máscara e Sincronicidade Aprimorada

Resumo

A geração de vídeo para áudio (V2A) aproveita características visuais exclusivas do vídeo para produzir sons plausíveis que correspondam à cena. É crucial que os inícios de som gerados correspondam às ações visuais alinhadas a eles, caso contrário, surgem artefatos de sincronização não naturais. Trabalhos recentes têm explorado a progressão de condicionamento de geradores de som em imagens estáticas e depois em características de vídeo, focando na qualidade e correspondência semântica, enquanto ignoram a sincronização, ou sacrificando um pouco da qualidade para melhorar apenas a sincronização. Neste trabalho, propomos um modelo generativo V2A, chamado MaskVAT, que interconecta um codec de áudio geral de alta qualidade de banda total com um modelo generativo mascarado sequencial. Essa combinação permite modelar simultaneamente alta qualidade de áudio, correspondência semântica e sincronia temporal. Nossos resultados mostram que, ao combinar um codec de alta qualidade com as características audiovisuais pré-treinadas adequadas e uma estrutura paralela sequencial, somos capazes de obter resultados altamente sincronizados, ao mesmo tempo em que competimos com o estado da arte de modelos generativos de áudio não baseados em codec. Vídeos de amostra e áudios gerados estão disponíveis em https://maskvat.github.io.

English

Video-to-audio (V2A) generation leverages visual-only video features to render plausible sounds that match the scene. Importantly, the generated sound onsets should match the visual actions that are aligned with them, otherwise unnatural synchronization artifacts arise. Recent works have explored the progression of conditioning sound generators on still images and then video features, focusing on quality and semantic matching while ignoring synchronization, or by sacrificing some amount of quality to focus on improving synchronization only. In this work, we propose a V2A generative model, named MaskVAT, that interconnects a full-band high-quality general audio codec with a sequence-to-sequence masked generative model. This combination allows modeling both high audio quality, semantic matching, and temporal synchronicity at the same time. Our results show that, by combining a high-quality codec with the proper pre-trained audio-visual features and a sequence-to-sequence parallel structure, we are able to yield highly synchronized results on one hand, whilst being competitive with the state of the art of non-codec generative audio models. Sample videos and generated audios are available at https://maskvat.github.io .

Transformadores Generativos de Vídeo para Áudio com Máscara e Sincronicidade Aprimorada

Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity

Resumo

Support