ChatPaper.aiChatPaper

Generación de Sonido Foley Guiada por Video con Controles Multimodales

Video-Guided Foley Sound Generation with Multimodal Controls

November 26, 2024
Autores: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI

Resumen

La generación de efectos de sonido para videos a menudo requiere la creación de efectos de sonido artísticos que se alejan significativamente de fuentes de la vida real y un control flexible en el diseño de sonido. Para abordar este problema, presentamos MultiFoley, un modelo diseñado para la generación de sonido guiada por video que admite condicionamiento multimodal a través de texto, audio y video. Dado un video silencioso y una indicación de texto, MultiFoley permite a los usuarios crear sonidos limpios (por ejemplo, ruedas de monopatín girando sin ruido de viento) o sonidos más caprichosos (por ejemplo, hacer que el rugido de un león suene como el maullido de un gato). MultiFoley también permite a los usuarios elegir audio de referencia de bibliotecas de efectos de sonido (SFX) o videos parciales para el condicionamiento. Una novedad clave de nuestro modelo radica en su entrenamiento conjunto en conjuntos de datos de videos de internet con audio de baja calidad y grabaciones de SFX profesionales, lo que permite la generación de audio de alta calidad y ancho de banda completo (48kHz). A través de evaluaciones automatizadas y estudios con humanos, demostramos que MultiFoley genera con éxito sonidos de alta calidad sincronizados a través de diversos inputs condicionales y supera a los métodos existentes. Por favor, consulte nuestra página de proyecto para ver los resultados en video: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound effects that diverge significantly from real-life sources and flexible control in the sound design. To address this problem, we introduce MultiFoley, a model designed for video-guided sound generation that supports multimodal conditioning through text, audio, and video. Given a silent video and a text prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels spinning without wind noise) or more whimsical sounds (e.g., making a lion's roar sound like a cat's meow). MultiFoley also allows users to choose reference audio from sound effects (SFX) libraries or partial videos for conditioning. A key novelty of our model lies in its joint training on both internet video datasets with low-quality audio and professional SFX recordings, enabling high-quality, full-bandwidth (48kHz) audio generation. Through automated evaluations and human studies, we demonstrate that MultiFoley successfully generates synchronized high-quality sounds across varied conditional inputs and outperforms existing methods. Please see our project page for video results: https://ificl.github.io/MultiFoley/

Summary

AI-Generated Summary

PDF102November 28, 2024