ChatPaper.aiChatPaper

Futga: 시간적 강화 생성적 증강을 통한 세분화된 음악 이해를 향하여

Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation

July 29, 2024
저자: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI

초록

기존의 음악 캡셔닝 방법은 짧은 음악 클립에 대한 간결한 전반적 설명을 생성하는 데에만 국한되어 있어, 세밀한 음악적 특성과 시간에 따른 음악적 변화를 포착하지 못하는 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 시간적 구성을 활용한 생성적 증강 학습을 통해 세밀한 음악 이해 능력을 갖춘 FUTGA 모델을 제안합니다. 우리는 기존의 음악 캡션 데이터셋과 대형 언어 모델(LLM)을 활용하여 전체 길이의 곡에 대한 구조적 설명과 시간 경계를 포함한 세밀한 음악 캡션을 합성합니다. 제안된 합성 데이터셋으로 증강된 FUTGA는 주요 전환 지점에서의 음악적 변화와 그 기능을 식별할 수 있을 뿐만 아니라, 각 음악 세그먼트에 대한 상세한 설명을 생성할 수 있습니다. 또한, 우리는 FUTGA에 의해 생성된 전체 길이의 음악 캡션 데이터셋을 MusicCaps 및 Song Describer 데이터셋의 증강으로 소개합니다. 자동 생성된 캡션은 음악 생성 및 검색을 포함한 여러 다운스트림 작업에서 평가되었으며, 실험 결과는 생성된 캡션의 품질과 제안된 음악 캡셔닝 접근법이 다양한 다운스트림 작업에서 더 나은 성능을 달성함을 보여줍니다. 우리의 코드와 데이터셋은 https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}에서 확인할 수 있습니다.
English
Existing music captioning methods are limited to generating concise global descriptions of short music clips, which fail to capture fine-grained musical characteristics and time-aware musical changes. To address these limitations, we propose FUTGA, a model equipped with fined-grained music understanding capabilities through learning from generative augmentation with temporal compositions. We leverage existing music caption datasets and large language models (LLMs) to synthesize fine-grained music captions with structural descriptions and time boundaries for full-length songs. Augmented by the proposed synthetic dataset, FUTGA is enabled to identify the music's temporal changes at key transition points and their musical functions, as well as generate detailed descriptions for each music segment. We further introduce a full-length music caption dataset generated by FUTGA, as the augmentation of the MusicCaps and the Song Describer datasets. We evaluate the automatically generated captions on several downstream tasks, including music generation and retrieval. The experiments demonstrate the quality of the generated captions and the better performance in various downstream tasks achieved by the proposed music captioning approach. Our code and datasets can be found in https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.

Summary

AI-Generated Summary

PDF233November 28, 2024