ChatPaper.aiChatPaper

음악을 위한 기초 모델: 조사

Foundation Models for Music: A Survey

August 26, 2024
저자: Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wehhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang
cs.AI

초록

최근 몇 년간, 대규모 언어 모델 (LLM) 및 잠재 확산 모델 (LDM)과 같은 기초 모델 (FMs)은 음악을 포함한 다양한 분야에 깊은 영향을 미쳤습니다. 본 포괄적인 리뷰는 음악 분야에서의 최첨단 사전 학습 모델 및 기초 모델을 살펴보며, 표현 학습, 생성 학습 및 다중 모달 학습에 걸쳐 이어집니다. 먼저 음악의 산업적 중요성을 맥락화하고 음악에서 AI의 진화를 추적합니다. 기초 모델이 대상으로 하는 모달리티를 명확히 함으로써, 많은 음악 표현이 FM 개발에서 미개척되어 있다는 사실을 발견합니다. 그런 다음, 이전 방법의 다양한 음악 응용 프로그램에 대한 다용도성 부족과 음악 이해, 생성 및 의료 응용 프로그램의 FM 잠재력에 중점을 둡니다. 모델 사전 학습 패러다임, 구조 선택, 토큰화, 세밀 조정 방법 및 제어 가능성의 세부 사항을 철저히 탐구함으로써, 지시 조정 및 문맥 학습, 스케일링 법칙 및 신흥 능력, 그리고 장기 시퀀스 모델링 등과 같이 탐구해야 할 중요한 주제를 강조합니다. 전용 섹션에서 음악 에이전트에 대한 통찰력을 제시하며, 사전 학습 및 하향식 작업에 꼭 필요한 데이터셋 및 평가에 대해 철저한 분석을 수행합니다. 마지막으로, 윤리적 고려의 중요성을 강조함으로써, 음악을 위한 FM에 대한 연구는 해석 가능성, 투명성, 인간 책임 및 저작권 문제와 같은 문제에 더 많은 주의를 기울여야 한다고 주장합니다. 이 논문은 음악을 위한 FM의 미래 도전과 트렌드에 대한 통찰력을 제공하여 음악 분야에서 인간-인공지능 협업의 궤적을 형성하려고 합니다.
English
In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm.

Summary

AI-Generated Summary

PDF452November 16, 2024