Geração de Som Foley Guiada por Vídeo com Controles Multimodais
Video-Guided Foley Sound Generation with Multimodal Controls
November 26, 2024
Autores: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI
Resumo
Gerar efeitos sonoros para vídeos frequentemente requer a criação de efeitos sonoros artísticos que se distanciam significativamente de fontes da vida real e controle flexível no design sonoro. Para abordar esse problema, apresentamos o MultiFoley, um modelo projetado para geração de som guiada por vídeo que suporta condicionamento multimodal por meio de texto, áudio e vídeo. Dado um vídeo silencioso e uma instrução de texto, o MultiFoley permite aos usuários criar sons limpos (por exemplo, rodas de skate girando sem ruído de vento) ou sons mais fantasiosos (por exemplo, fazer o rugido de um leão soar como o miado de um gato). O MultiFoley também permite aos usuários escolher áudio de referência de bibliotecas de efeitos sonoros (SFX) ou vídeos parciais para condicionamento. Uma novidade chave do nosso modelo reside em seu treinamento conjunto em conjuntos de dados de vídeos da internet com áudio de baixa qualidade e gravações profissionais de SFX, possibilitando a geração de áudio de alta qualidade e largura de banda total (48kHz). Por meio de avaliações automatizadas e estudos humanos, demonstramos que o MultiFoley gera com sucesso sons de alta qualidade sincronizados em entradas condicionais variadas e supera os métodos existentes. Consulte nossa página do projeto para ver os resultados em vídeo: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound
effects that diverge significantly from real-life sources and flexible control
in the sound design. To address this problem, we introduce MultiFoley, a model
designed for video-guided sound generation that supports multimodal
conditioning through text, audio, and video. Given a silent video and a text
prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels
spinning without wind noise) or more whimsical sounds (e.g., making a lion's
roar sound like a cat's meow). MultiFoley also allows users to choose reference
audio from sound effects (SFX) libraries or partial videos for conditioning. A
key novelty of our model lies in its joint training on both internet video
datasets with low-quality audio and professional SFX recordings, enabling
high-quality, full-bandwidth (48kHz) audio generation. Through automated
evaluations and human studies, we demonstrate that MultiFoley successfully
generates synchronized high-quality sounds across varied conditional inputs and
outperforms existing methods. Please see our project page for video results:
https://ificl.github.io/MultiFoley/Summary
AI-Generated Summary