ChatPaper.aiChatPaper

Foundation Models voor Muziek: Een Overzicht

Foundation Models for Music: A Survey

August 26, 2024
Auteurs: Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wehhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang
cs.AI

Samenvatting

De afgelopen jaren hebben foundation models (FM's), zoals large language models (LLM's) en latent diffusion models (LDM's), een diepgaande impact gehad op diverse sectoren, waaronder muziek. Deze uitgebreide review onderzoekt state-of-the-art (SOTA) vooraf getrainde modellen en foundation models in muziek, variërend van representatie leren, generatief leren en multimodaal leren. We plaatsen eerst het belang van muziek in verschillende industrieën in context en volgen de evolutie van AI in muziek. Door de modaliteiten die door foundation models worden beoogd af te bakenen, ontdekken we dat veel van de muziekrepresentaties onderbelicht zijn in de ontwikkeling van FM's. Vervolgens wordt de nadruk gelegd op het gebrek aan veelzijdigheid van eerdere methoden voor diverse muziektoepassingen, samen met het potentieel van FM's in muziekbegrip, -generatie en medische toepassingen. Door de details van het model pre-training paradigma, architectonische keuzes, tokenisatie, finetuning methodologieën en beheersbaarheid uitgebreid te verkennen, benadrukken we de belangrijke onderwerpen die goed onderzocht hadden moeten worden, zoals instructie afstemming en in-context leren, schaalwetten en emergente vermogens, evenals lange-sequentie modellering etc. Een speciaal gedeelte biedt inzichten in muziekagentschappen, vergezeld van een grondige analyse van datasets en evaluaties die essentieel zijn voor pre-training en downstream taken. Ten slotte benadrukken we het vitale belang van ethische overwegingen en pleiten we ervoor dat vervolgonderzoek naar FM's voor muziek zich meer zou moeten richten op kwesties zoals interpreteerbaarheid, transparantie, menselijke verantwoordelijkheid en auteursrechtenkwesties. Het artikel biedt inzichten in toekomstige uitdagingen en trends op het gebied van FM's voor muziek, met als doel de trajecten van mens-AI-samenwerking in de muziekwereld vorm te geven.
English
In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm.

Summary

AI-Generated Summary

PDF452November 16, 2024