FoleyCrafter: Оживите бесзвучные видео с помощью реалистичных и синхронизированных звуков
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds
July 1, 2024
Авторы: Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen
cs.AI
Аннотация
Мы изучаем Neural Foley, автоматическую генерацию высококачественных звуковых эффектов, синхронизированных с видео, обеспечивая увлекательный аудиовизуальный опыт. Несмотря на широкий спектр применений, существующие подходы сталкиваются с ограничениями при одновременном синтезе высококачественных и синхронизированных с видео (т.е. семантически значимых и временно согласованных) звуков. Для преодоления этих ограничений мы предлагаем FoleyCrafter, новую концепцию, которая использует предварительно обученную модель текст-в-аудио для обеспечения генерации высококачественного звука. FoleyCrafter состоит из двух ключевых компонентов: семантического адаптера для семантического выравнивания и временного контроллера для точной синхронизации аудио-видео. Семантический адаптер использует параллельные слои кросс-внимания для условией генерации звука на особенности видео, создавая реалистичные звуковые эффекты, семантически соответствующие визуальному контенту. Тем временем временной контроллер включает детектор начала и адаптер на основе временных меток для достижения точного выравнивания аудио-видео. Одним из заметных преимуществ FoleyCrafter является его совместимость с текстовыми подсказками, позволяющая использовать текстовые описания для достижения управляемой и разнообразной генерации видео-в-аудио в соответствии с намерениями пользователя. Мы проводим обширные количественные и качественные эксперименты на стандартных бенчмарках для проверки эффективности FoleyCrafter. Модели и коды доступны по адресу https://github.com/open-mmlab/FoleyCrafter.
English
We study Neural Foley, the automatic generation of high-quality sound effects
synchronizing with videos, enabling an immersive audio-visual experience.
Despite its wide range of applications, existing approaches encounter
limitations when it comes to simultaneously synthesizing high-quality and
video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To
overcome these limitations, we propose FoleyCrafter, a novel framework that
leverages a pre-trained text-to-audio model to ensure high-quality audio
generation. FoleyCrafter comprises two key components: the semantic adapter for
semantic alignment and the temporal controller for precise audio-video
synchronization. The semantic adapter utilizes parallel cross-attention layers
to condition audio generation on video features, producing realistic sound
effects that are semantically relevant to the visual content. Meanwhile, the
temporal controller incorporates an onset detector and a timestampbased adapter
to achieve precise audio-video alignment. One notable advantage of FoleyCrafter
is its compatibility with text prompts, enabling the use of text descriptions
to achieve controllable and diverse video-to-audio generation according to user
intents. We conduct extensive quantitative and qualitative experiments on
standard benchmarks to verify the effectiveness of FoleyCrafter. Models and
codes are available at https://github.com/open-mmlab/FoleyCrafter.Summary
AI-Generated Summary