V2Meow: Maullando al ritmo visual mediante generación musical
V2Meow: Meowing to the Visual Beat via Music Generation
May 11, 2023
Autores: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
cs.AI
Resumen
Generar música de alta calidad que complemente el contenido visual de un video es una tarea desafiante. La mayoría de los sistemas existentes de generación de música condicionada visualmente producen datos de música simbólica, como archivos MIDI, en lugar de formas de onda de audio crudo. Dada la disponibilidad limitada de datos de música simbólica, estos métodos solo pueden generar música para unos pocos instrumentos o para tipos específicos de entrada visual. En este artículo, proponemos un enfoque novedoso llamado V2Meow que puede generar audio musical de alta calidad que se alinea bien con la semántica visual de una amplia gama de tipos de entrada de video. Específicamente, el sistema de generación de música propuesto es un modelo autorregresivo de múltiples etapas que se entrena con un número del orden de O(100K) clips de audio musical emparejados con fotogramas de video, extraídos de videos musicales en entornos naturales, y no se involucran datos de música simbólica paralelos. V2Meow es capaz de sintetizar formas de onda de audio musical de alta fidelidad únicamente condicionadas por características visuales preentrenadas extraídas de un clip de video silencioso arbitrario, y también permite un control de alto nivel sobre el estilo musical de los ejemplos generados mediante el soporte de indicaciones de texto además del condicionamiento por fotogramas de video. A través de evaluaciones tanto cualitativas como cuantitativas, demostramos que nuestro modelo supera a varios sistemas existentes de generación de música en términos de correspondencia visual-audio y calidad de audio.
English
Generating high quality music that complements the visual content of a video
is a challenging task. Most existing visual conditioned music generation
systems generate symbolic music data, such as MIDI files, instead of raw audio
waveform. Given the limited availability of symbolic music data, such methods
can only generate music for a few instruments or for specific types of visual
input. In this paper, we propose a novel approach called V2Meow that can
generate high-quality music audio that aligns well with the visual semantics of
a diverse range of video input types. Specifically, the proposed music
generation system is a multi-stage autoregressive model which is trained with a
number of O(100K) music audio clips paired with video frames, which are mined
from in-the-wild music videos, and no parallel symbolic music data is involved.
V2Meow is able to synthesize high-fidelity music audio waveform solely
conditioned on pre-trained visual features extracted from an arbitrary silent
video clip, and it also allows high-level control over the music style of
generation examples via supporting text prompts in addition to the video frames
conditioning. Through both qualitative and quantitative evaluations, we
demonstrate that our model outperforms several existing music generation
systems in terms of both visual-audio correspondence and audio quality.