Видео-Фоли: Генерация звука по видео в два этапа с использованием временного события для звука Фоли
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound
August 21, 2024
Авторы: Junwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam
cs.AI
Аннотация
Синтез фолиевского звука имеет важное значение для производства мультимедиа, улучшая пользовательский опыт путем синхронизации аудио и видео как временно, так и семантически. Недавние исследования по автоматизации этого трудоемкого процесса через генерацию звука по видео сталкиваются с существенными проблемами. Системы, не имеющие явных временных характеристик, страдают от плохой управляемости и выравнивания, в то время как модели на основе временных меток требуют дорогостоящей и субъективной аннотации человеком. Мы предлагаем Video-Foley, систему видео-в-звук, использующую среднеквадратичное отклонение (RMS) в качестве условия временного события с семантическими подсказками тембра (аудио или текста). RMS, характеристика интенсивности на уровне кадра, тесно связанная с аудио-семантикой, обеспечивает высокую управляемость и синхронизацию. Фреймворк самообучения без аннотации состоит из двух этапов, Video2RMS и RMS2Sound, включающих новые идеи, включая дискретизацию RMS и RMS-ControlNet с предварительно обученной моделью текст-в-аудио. Наше обширное оценивание показывает, что Video-Foley достигает передового качества в аудио-визуальном выравнивании и управляемости для времени звука, интенсивности, тембра и нюансов. Код, веса модели и демонстрации доступны на сопутствующем веб-сайте. (https://jnwnlee.github.io/video-foley-demo)
English
Foley sound synthesis is crucial for multimedia production, enhancing user
experience by synchronizing audio and video both temporally and semantically.
Recent studies on automating this labor-intensive process through
video-to-sound generation face significant challenges. Systems lacking explicit
temporal features suffer from poor controllability and alignment, while
timestamp-based models require costly and subjective human annotation. We
propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a
temporal event condition with semantic timbre prompts (audio or text). RMS, a
frame-level intensity envelope feature closely related to audio semantics,
ensures high controllability and synchronization. The annotation-free
self-supervised learning framework consists of two stages, Video2RMS and
RMS2Sound, incorporating novel ideas including RMS discretization and
RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation
shows that Video-Foley achieves state-of-the-art performance in audio-visual
alignment and controllability for sound timing, intensity, timbre, and nuance.
Code, model weights, and demonstrations are available on the accompanying
website. (https://jnwnlee.github.io/video-foley-demo)Summary
AI-Generated Summary