V2Meow: 시각적 비트에 맞춰 음악 생성으로 야옹하기
V2Meow: Meowing to the Visual Beat via Music Generation
May 11, 2023
저자: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
cs.AI
초록
비디오의 시각적 콘텐츠를 보완하는 고품질 음악을 생성하는 것은 어려운 과제입니다. 기존의 시각적 조건부 음악 생성 시스템 대부분은 원시 오디오 파형 대신 MIDI 파일과 같은 기호적 음악 데이터를 생성합니다. 기호적 음악 데이터의 제한된 가용성으로 인해, 이러한 방법은 소수의 악기나 특정 유형의 시각적 입력에 대해서만 음악을 생성할 수 있습니다. 본 논문에서는 다양한 유형의 비디오 입력에 대해 시각적 의미와 잘 맞는 고품질 음악 오디오를 생성할 수 있는 V2Meow라는 새로운 접근 방식을 제안합니다. 구체적으로, 제안된 음악 생성 시스템은 실제 음악 비디오에서 추출한 O(100K) 수준의 음악 오디오 클립과 비디오 프레임 쌍으로 학습된 다단계 자기회귀 모델이며, 병렬 기호적 음악 데이터는 사용되지 않습니다. V2Meow는 임의의 무음 비디오 클립에서 추출한 사전 학습된 시각적 특징만을 조건으로 고해상도 음악 오디오 파형을 합성할 수 있으며, 비디오 프레임 조건 외에도 텍스트 프롬프트를 통해 생성 예제의 음악 스타일에 대한 상위 수준의 제어를 지원합니다. 정성적 및 정량적 평가를 통해, 우리의 모델이 시각-오디오 일관성과 오디오 품질 모두에서 기존의 여러 음악 생성 시스템을 능가함을 입증합니다.
English
Generating high quality music that complements the visual content of a video
is a challenging task. Most existing visual conditioned music generation
systems generate symbolic music data, such as MIDI files, instead of raw audio
waveform. Given the limited availability of symbolic music data, such methods
can only generate music for a few instruments or for specific types of visual
input. In this paper, we propose a novel approach called V2Meow that can
generate high-quality music audio that aligns well with the visual semantics of
a diverse range of video input types. Specifically, the proposed music
generation system is a multi-stage autoregressive model which is trained with a
number of O(100K) music audio clips paired with video frames, which are mined
from in-the-wild music videos, and no parallel symbolic music data is involved.
V2Meow is able to synthesize high-fidelity music audio waveform solely
conditioned on pre-trained visual features extracted from an arbitrary silent
video clip, and it also allows high-level control over the music style of
generation examples via supporting text prompts in addition to the video frames
conditioning. Through both qualitative and quantitative evaluations, we
demonstrate that our model outperforms several existing music generation
systems in terms of both visual-audio correspondence and audio quality.