ChatPaper.aiChatPaper

V2Meow: Мяуканье в визуальном ритме через генерацию музыки

V2Meow: Meowing to the Visual Beat via Music Generation

May 11, 2023
Авторы: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
cs.AI

Аннотация

Создание высококачественной музыки, которая дополняет визуальное содержание видео, является сложной задачей. Большинство существующих систем генерации музыки, основанных на визуальных данных, создают символические музыкальные данные, такие как MIDI-файлы, вместо сырых аудиоволн. Учитывая ограниченную доступность символических музыкальных данных, такие методы могут генерировать музыку только для нескольких инструментов или для определенных типов визуального контента. В данной статье мы предлагаем новый подход под названием V2Meow, который способен генерировать высококачественную музыку, хорошо согласованную с визуальной семантикой разнообразных типов видео. В частности, предложенная система генерации музыки представляет собой многоступенчатую авторегрессионную модель, обученную на наборе из порядка 100 тысяч аудиоклипов, сопоставленных с кадрами видео, которые были извлечены из музыкальных видео, доступных в открытых источниках, при этом параллельные символические музыкальные данные не используются. V2Meow способна синтезировать высококачественные аудиоволны музыки, основываясь исключительно на предварительно извлеченных визуальных признаках из произвольного немого видеоклипа, а также позволяет осуществлять высокоуровневое управление стилем генерируемой музыки с помощью текстовых подсказок в дополнение к условиям, задаваемым кадрами видео. С помощью качественных и количественных оценок мы демонстрируем, что наша модель превосходит несколько существующих систем генерации музыки как по соответствию визуального и аудио контента, так и по качеству звука.
English
Generating high quality music that complements the visual content of a video is a challenging task. Most existing visual conditioned music generation systems generate symbolic music data, such as MIDI files, instead of raw audio waveform. Given the limited availability of symbolic music data, such methods can only generate music for a few instruments or for specific types of visual input. In this paper, we propose a novel approach called V2Meow that can generate high-quality music audio that aligns well with the visual semantics of a diverse range of video input types. Specifically, the proposed music generation system is a multi-stage autoregressive model which is trained with a number of O(100K) music audio clips paired with video frames, which are mined from in-the-wild music videos, and no parallel symbolic music data is involved. V2Meow is able to synthesize high-fidelity music audio waveform solely conditioned on pre-trained visual features extracted from an arbitrary silent video clip, and it also allows high-level control over the music style of generation examples via supporting text prompts in addition to the video frames conditioning. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms several existing music generation systems in terms of both visual-audio correspondence and audio quality.
PDF10December 15, 2024