Corte de Correspondência de Áudio: Encontrando e Criando Transições de Áudio Correspondentes em Filmes e Vídeos
Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos
August 20, 2024
Autores: Dennis Fedorishin, Lie Lu, Srirangaraj Setlur, Venu Govindaraju
cs.AI
Resumo
Um "corte de correspondência" é uma técnica comum de edição de vídeo onde um par de planos com composição similar transita fluidamente de um para o outro. Embora os cortes de correspondência sejam frequentemente visuais, certos cortes de correspondência envolvem a transição fluida de áudio, onde sons de diferentes fontes se fundem em uma transição indistinguível entre dois planos. Neste artigo, exploramos a capacidade de encontrar e criar automaticamente "cortes de correspondência de áudio" em vídeos e filmes. Criamos uma representação de áudio auto-supervisionada para o corte de correspondência de áudio e desenvolvemos um pipeline de correspondência de áudio de grosso a fino que recomenda planos correspondentes e cria o áudio mesclado. Além disso, anotamos um conjunto de dados para a tarefa proposta de corte de correspondência de áudio e comparamos a capacidade de múltiplas representações de áudio em encontrar candidatos a cortes de correspondência de áudio. Por fim, avaliamos múltiplos métodos para mesclar dois candidatos a cortes de correspondência de áudio com o objetivo de criar uma transição suave. A página do projeto e exemplos estão disponíveis em: https://denfed.github.io/audiomatchcut/
English
A "match cut" is a common video editing technique where a pair of shots that
have a similar composition transition fluidly from one to another. Although
match cuts are often visual, certain match cuts involve the fluid transition of
audio, where sounds from different sources merge into one indistinguishable
transition between two shots. In this paper, we explore the ability to
automatically find and create "audio match cuts" within videos and movies. We
create a self-supervised audio representation for audio match cutting and
develop a coarse-to-fine audio match pipeline that recommends matching shots
and creates the blended audio. We further annotate a dataset for the proposed
audio match cut task and compare the ability of multiple audio representations
to find audio match cut candidates. Finally, we evaluate multiple methods to
blend two matching audio candidates with the goal of creating a smooth
transition. Project page and examples are available at:
https://denfed.github.io/audiomatchcut/