Генерация звуков Фоли с помощью видео-руководства с мультимодальным управлением

Аннотация

Генерация звуковых эффектов для видео часто требует создания художественных звуковых эффектов, которые значительно отличаются от источников реальной жизни, и гибкого контроля в звуковом дизайне. Для решения этой проблемы мы представляем MultiFoley, модель, разработанную для генерации звука под управлением видео, поддерживающую мультимодальное условие через текст, аудио и видео. Учитывая бесшумное видео и текстовую подсказку, MultiFoley позволяет пользователям создавать чистые звуки (например, вращение колес скейтборда без шума ветра) или более фантастические звуки (например, звук рыка льва, похожий на мяуканье кота). MultiFoley также позволяет пользователям выбирать ссылочное аудио из библиотек звуковых эффектов (SFX) или частичных видео для условий. Одной из ключевых новинок нашей модели является ее совместное обучение как на интернет-видео наборах данных с аудио низкого качества, так и на профессиональных записях звуковых эффектов, обеспечивая генерацию аудио высокого качества с полной пропускной способностью (48 кГц). Через автоматизированные оценки и исследования с участием людей мы демонстрируем, что MultiFoley успешно генерирует синхронизированные звуки высокого качества при разнообразных условиях ввода и превосходит существующие методы. Пожалуйста, посетите нашу страницу проекта для видео-результатов: https://ificl.github.io/MultiFoley/

English

Generating sound effects for videos often requires creating artistic sound effects that diverge significantly from real-life sources and flexible control in the sound design. To address this problem, we introduce MultiFoley, a model designed for video-guided sound generation that supports multimodal conditioning through text, audio, and video. Given a silent video and a text prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels spinning without wind noise) or more whimsical sounds (e.g., making a lion's roar sound like a cat's meow). MultiFoley also allows users to choose reference audio from sound effects (SFX) libraries or partial videos for conditioning. A key novelty of our model lies in its joint training on both internet video datasets with low-quality audio and professional SFX recordings, enabling high-quality, full-bandwidth (48kHz) audio generation. Through automated evaluations and human studies, we demonstrate that MultiFoley successfully generates synchronized high-quality sounds across varied conditional inputs and outperforms existing methods. Please see our project page for video results: https://ificl.github.io/MultiFoley/

Генерация звуков Фоли с помощью видео-руководства с мультимодальным управлением

Video-Guided Foley Sound Generation with Multimodal Controls

Аннотация

Support