Создание аудио: Использование множественных инструкций для синтеза видео в аудио
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis
September 10, 2024
Авторы: Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang
cs.AI
Аннотация
Фоли - термин, широко используемый в кинематографии, означающий добавление звуковых эффектов к немым фильмам или видео для улучшения звукового восприятия. Видео-в-Аудио (V2A), как особый тип автоматической задачи фоли, представляет собой встроенные вызовы, связанные с синхронизацией аудио и видео. Эти вызовы включают в себя поддержание согласованности контента между входным видео и сгенерированным аудио, а также выравнивание временных и громкостных характеристик внутри видео. Для решения этих проблем мы создаем управляемую модель синтеза видео-в-аудио, названную Draw an Audio, которая поддерживает несколько входных инструкций через нарисованные маски и сигналы громкости. Для обеспечения согласованности контента между синтезированным аудио и целевым видео мы вводим Модуль Внимания-Маски (MAM), который использует маскированные видеоинструкции, чтобы позволить модели сосредоточиться на интересующих областях. Кроме того, мы реализуем Модуль Времени-Громкости (TLM), который использует вспомогательный сигнал громкости для обеспечения синтеза звука, соответствующего видео как по громкости, так и по временным измерениям. Более того, мы расширили крупномасштабный набор данных V2A, названный VGGSound-Caption, добавив аннотации к подписям. Обширные эксперименты на сложных бенчмарках по двум крупномасштабным наборам данных V2A подтверждают, что Draw an Audio достигает передового уровня. Страница проекта: https://yannqi.github.io/Draw-an-Audio/.
English
Foley is a term commonly used in filmmaking, referring to the addition of
daily sound effects to silent films or videos to enhance the auditory
experience. Video-to-Audio (V2A), as a particular type of automatic foley task,
presents inherent challenges related to audio-visual synchronization. These
challenges encompass maintaining the content consistency between the input
video and the generated audio, as well as the alignment of temporal and
loudness properties within the video. To address these issues, we construct a
controllable video-to-audio synthesis model, termed Draw an Audio, which
supports multiple input instructions through drawn masks and loudness signals.
To ensure content consistency between the synthesized audio and target video,
we introduce the Mask-Attention Module (MAM), which employs masked video
instruction to enable the model to focus on regions of interest. Additionally,
we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness
signal to ensure the synthesis of sound that aligns with the video in both
loudness and temporal dimensions. Furthermore, we have extended a large-scale
V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive
experiments on challenging benchmarks across two large-scale V2A datasets
verify Draw an Audio achieves the state-of-the-art. Project page:
https://yannqi.github.io/Draw-an-Audio/.Summary
AI-Generated Summary