Futga:時間的強化を伴う生成的拡張による細粒度音楽理解に向けて
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation
July 29, 2024
著者: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI
要旨
既存の音楽キャプションニング手法は、短い音楽クリップに対する簡潔な全体記述の生成に限定されており、細粒度の音楽的特徴や時間軸を考慮した音楽的変化を捉えることができていない。これらの制約を解決するため、我々はFUTGAを提案する。FUTGAは、時間的構成を伴う生成的拡張から学習することで、細粒度の音楽理解能力を備えたモデルである。既存の音楽キャプションデータセットと大規模言語モデル(LLMs)を活用し、構造的記述と時間境界を備えた細粒度の音楽キャプションをフルレングスの楽曲に対して合成する。提案する合成データセットによる拡張により、FUTGAは主要な転換点における音楽的変化とその音楽的機能を識別し、各音楽セグメントに対する詳細な記述を生成することが可能となる。さらに、MusicCapsとSong Describerデータセットの拡張として、FUTGAによって生成されたフルレングス音楽キャプションデータセットを導入する。自動生成されたキャプションを、音楽生成や検索を含む複数の下流タスクで評価する。実験結果は、生成されたキャプションの品質と、提案する音楽キャプションニング手法が様々な下流タスクで達成するより優れた性能を示している。我々のコードとデータセットはhttps://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}で公開されている。
English
Existing music captioning methods are limited to generating concise global
descriptions of short music clips, which fail to capture fine-grained musical
characteristics and time-aware musical changes. To address these limitations,
we propose FUTGA, a model equipped with fined-grained music understanding
capabilities through learning from generative augmentation with temporal
compositions. We leverage existing music caption datasets and large language
models (LLMs) to synthesize fine-grained music captions with structural
descriptions and time boundaries for full-length songs. Augmented by the
proposed synthetic dataset, FUTGA is enabled to identify the music's temporal
changes at key transition points and their musical functions, as well as
generate detailed descriptions for each music segment. We further introduce a
full-length music caption dataset generated by FUTGA, as the augmentation of
the MusicCaps and the Song Describer datasets. We evaluate the automatically
generated captions on several downstream tasks, including music generation and
retrieval. The experiments demonstrate the quality of the generated captions
and the better performance in various downstream tasks achieved by the proposed
music captioning approach. Our code and datasets can be found in
https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.Summary
AI-Generated Summary