프롬프트 유사성을 통한 비디오용 언어 기반 음악 추천
Language-Guided Music Recommendation for Video via Prompt Analogies
June 15, 2023
저자: Daniel McKee, Justin Salamon, Josef Sivic, Bryan Russell
cs.AI
초록
우리는 사용자가 자유 형식의 자연어로 음악 선택을 안내할 수 있도록 하면서 입력 비디오에 적합한 음악을 추천하는 방법을 제안합니다. 이 문제 설정의 주요 과제는 기존의 음악 비디오 데이터셋이 필요한 (비디오, 음악) 학습 쌍을 제공하지만, 음악에 대한 텍스트 설명이 부족하다는 점입니다. 본 연구는 다음과 같은 세 가지 기여로 이 문제를 해결합니다. 첫째, 우리는 대규모 언어 모델(BLOOM-176B)을 사용하여 사전 훈련된 음악 태거 출력과 소량의 인간 작성 텍스트 설명을 기반으로 자연어 음악 설명을 생성하는 유추 기반 프롬프팅 절차를 통한 텍스트 합성 접근법을 제안합니다. 둘째, 이러한 합성된 음악 설명을 사용하여 텍스트와 비디오 입력 표현을 융합하여 음악 샘플을 쿼리하는 새로운 트리모달 모델을 훈련합니다. 훈련 과정에서 우리는 모델 성능에 중요한 텍스트 드롭아웃 정규화 메커니즘을 도입합니다. 우리의 모델 설계는 검색된 음악 오디오가 비디오에 묘사된 시각적 스타일과 자연어 쿼리에서 설명된 음악 장르, 분위기 또는 악기 구성과 일치하도록 합니다. 셋째, 우리의 접근 방식을 평가하기 위해 YT8M-MusicVideo 데이터셋의 4,000개 클립 하위 집합에 자연어 음악 설명을 주석 처리하여 테스트 데이터셋을 수집하고 이를 공개합니다. 우리의 접근 방식이 비디오-음악 검색에서 기존 방법의 성능을 따라가거나 능가하면서 텍스트 안내를 사용할 때 검색 정확도를 크게 향상시킬 수 있음을 보여줍니다.
English
We propose a method to recommend music for an input video while allowing a
user to guide music selection with free-form natural language. A key challenge
of this problem setting is that existing music video datasets provide the
needed (video, music) training pairs, but lack text descriptions of the music.
This work addresses this challenge with the following three contributions.
First, we propose a text-synthesis approach that relies on an analogy-based
prompting procedure to generate natural language music descriptions from a
large-scale language model (BLOOM-176B) given pre-trained music tagger outputs
and a small number of human text descriptions. Second, we use these synthesized
music descriptions to train a new trimodal model, which fuses text and video
input representations to query music samples. For training, we introduce a text
dropout regularization mechanism which we show is critical to model
performance. Our model design allows for the retrieved music audio to agree
with the two input modalities by matching visual style depicted in the video
and musical genre, mood, or instrumentation described in the natural language
query. Third, to evaluate our approach, we collect a testing dataset for our
problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset
with natural language music descriptions which we make publicly available. We
show that our approach can match or exceed the performance of prior methods on
video-to-music retrieval while significantly improving retrieval accuracy when
using text guidance.