Генерация звуков Фоли с помощью видео-руководства с мультимодальным управлением
Video-Guided Foley Sound Generation with Multimodal Controls
November 26, 2024
Авторы: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI
Аннотация
Генерация звуковых эффектов для видео часто требует создания художественных звуковых эффектов, которые значительно отличаются от источников реальной жизни, и гибкого контроля в звуковом дизайне. Для решения этой проблемы мы представляем MultiFoley, модель, разработанную для генерации звука под управлением видео, поддерживающую мультимодальное условие через текст, аудио и видео. Учитывая бесшумное видео и текстовую подсказку, MultiFoley позволяет пользователям создавать чистые звуки (например, вращение колес скейтборда без шума ветра) или более фантастические звуки (например, звук рыка льва, похожий на мяуканье кота). MultiFoley также позволяет пользователям выбирать ссылочное аудио из библиотек звуковых эффектов (SFX) или частичных видео для условий. Одной из ключевых новинок нашей модели является ее совместное обучение как на интернет-видео наборах данных с аудио низкого качества, так и на профессиональных записях звуковых эффектов, обеспечивая генерацию аудио высокого качества с полной пропускной способностью (48 кГц). Через автоматизированные оценки и исследования с участием людей мы демонстрируем, что MultiFoley успешно генерирует синхронизированные звуки высокого качества при разнообразных условиях ввода и превосходит существующие методы. Пожалуйста, посетите нашу страницу проекта для видео-результатов: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound
effects that diverge significantly from real-life sources and flexible control
in the sound design. To address this problem, we introduce MultiFoley, a model
designed for video-guided sound generation that supports multimodal
conditioning through text, audio, and video. Given a silent video and a text
prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels
spinning without wind noise) or more whimsical sounds (e.g., making a lion's
roar sound like a cat's meow). MultiFoley also allows users to choose reference
audio from sound effects (SFX) libraries or partial videos for conditioning. A
key novelty of our model lies in its joint training on both internet video
datasets with low-quality audio and professional SFX recordings, enabling
high-quality, full-bandwidth (48kHz) audio generation. Through automated
evaluations and human studies, we demonstrate that MultiFoley successfully
generates synchronized high-quality sounds across varied conditional inputs and
outperforms existing methods. Please see our project page for video results:
https://ificl.github.io/MultiFoley/Summary
AI-Generated Summary