MuVi: Генерация музыки по видео с семантическим выравниванием и ритмической синхронизацией
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization
October 16, 2024
Авторы: Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao
cs.AI
Аннотация
Генерация музыки, соответствующей визуальному содержимому видео, является сложной задачей, поскольку требуется глубокое понимание визуальной семантики и включает в себя создание музыки, чей мелодия, ритм и динамика гармонично сочетаются с визуальными повествованиями. В данной статье представлена MuVi, новый фреймворк, который эффективно решает эти проблемы для улучшения связности и погружающего опыта аудиовизуального контента. MuVi анализирует видеоконтент с помощью специально разработанного визуального адаптера для извлечения контекстуально и временно значимых особенностей. Эти особенности используются для создания музыки, которая не только соответствует настроению и теме видео, но также его ритму и темпу. Мы также представляем контрастную схему предварительного обучения музыкально-визуального сопоставления для обеспечения синхронизации на основе периодичности музыкальных фраз. Кроме того, мы демонстрируем, что наш генератор музыки на основе сопоставления потоков обладает способностью к контекстному обучению, что позволяет нам контролировать стиль и жанр создаваемой музыки. Экспериментальные результаты показывают, что MuVi демонстрирует превосходную производительность как по качеству звука, так и по временной синхронизации. Сгенерированные образцы музыкальных видеороликов доступны по адресу https://muvi-v2m.github.io.
English
Generating music that aligns with the visual content of a video has been a
challenging task, as it requires a deep understanding of visual semantics and
involves generating music whose melody, rhythm, and dynamics harmonize with the
visual narratives. This paper presents MuVi, a novel framework that effectively
addresses these challenges to enhance the cohesion and immersive experience of
audio-visual content. MuVi analyzes video content through a specially designed
visual adaptor to extract contextually and temporally relevant features. These
features are used to generate music that not only matches the video's mood and
theme but also its rhythm and pacing. We also introduce a contrastive
music-visual pre-training scheme to ensure synchronization, based on the
periodicity nature of music phrases. In addition, we demonstrate that our
flow-matching-based music generator has in-context learning ability, allowing
us to control the style and genre of the generated music. Experimental results
show that MuVi demonstrates superior performance in both audio quality and
temporal synchronization. The generated music video samples are available at
https://muvi-v2m.github.io.Summary
AI-Generated Summary