音楽のための基盤モデル:調査
Foundation Models for Music: A Survey
August 26, 2024
著者: Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wehhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang
cs.AI
要旨
近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル(FMs)が音楽を含むさまざまな分野に大きな影響を与えています。この包括的なレビューでは、音楽における最先端の事前学習モデルと基盤モデルに焦点を当て、表現学習、生成学習、および多様な学習にわたる音楽の状況を調査します。まず、音楽の産業への重要性を文脈に沿って位置付け、音楽におけるAIの進化を追跡します。基盤モデルが対象とするモダリティを明確にすることで、音楽表現の多くがFMの開発において未開拓であることが明らかになります。その後、以前の手法の多様な音楽アプリケーションにおける汎用性の不足と、音楽理解、生成、医療応用におけるFMの潜在能力に焦点を当てます。モデルの事前学習パラダイム、アーキテクチャの選択、トークン化、ファインチューニング手法、および制御可能性の詳細を包括的に探求することで、指導チューニングやインコンテキスト学習、スケーリング法則と新興能力、長シーケンスモデリングなど、よく探求されるべき重要なトピックを強調します。音楽エージェントに関する洞察を提示し、事前学習およびダウンストリームタスクに不可欠なデータセットと評価の徹底的な分析を伴います。最後に、倫理的考慮の重要性を強調し、音楽におけるFMの研究は解釈可能性、透明性、人間の責任、著作権問題などの問題に焦点を当てるべきであると主張します。本論文は、音楽におけるFMの将来の課題やトレンドに関する洞察を提供し、音楽領域における人間とAIの協力の軌道を形作ることを目指しています。
English
In recent years, foundation models (FMs) such as large language models (LLMs)
and latent diffusion models (LDMs) have profoundly impacted diverse sectors,
including music. This comprehensive review examines state-of-the-art (SOTA)
pre-trained models and foundation models in music, spanning from representation
learning, generative learning and multimodal learning. We first contextualise
the significance of music in various industries and trace the evolution of AI
in music. By delineating the modalities targeted by foundation models, we
discover many of the music representations are underexplored in FM development.
Then, emphasis is placed on the lack of versatility of previous methods on
diverse music applications, along with the potential of FMs in music
understanding, generation and medical application. By comprehensively exploring
the details of the model pre-training paradigm, architectural choices,
tokenisation, finetuning methodologies and controllability, we emphasise the
important topics that should have been well explored, like instruction tuning
and in-context learning, scaling law and emergent ability, as well as
long-sequence modelling etc. A dedicated section presents insights into music
agents, accompanied by a thorough analysis of datasets and evaluations
essential for pre-training and downstream tasks. Finally, by underscoring the
vital importance of ethical considerations, we advocate that following research
on FM for music should focus more on such issues as interpretability,
transparency, human responsibility, and copyright issues. The paper offers
insights into future challenges and trends on FMs for music, aiming to shape
the trajectory of human-AI collaboration in the music realm.Summary
AI-Generated Summary