Modelli Fondamentali per la Musica: Una Rassegna
Foundation Models for Music: A Survey
August 26, 2024
Autori: Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wehhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang
cs.AI
Abstract
Negli ultimi anni, i modelli di base (FMs), come i grandi modelli linguistici (LLMs) e i modelli di diffusione latente (LDMs), hanno avuto un impatto profondo su diversi settori, inclusa la musica. Questa revisione completa esamina i modelli pre-addestrati e i modelli di base all'avanguardia (SOTA) nel campo della musica, spaziando dall'apprendimento di rappresentazioni, all'apprendimento generativo e all'apprendimento multimodale. Iniziamo contestualizzando l'importanza della musica in vari settori e tracciando l'evoluzione dell'AI nella musica. Delineando le modalità affrontate dai modelli di base, scopriamo che molte delle rappresentazioni musicali sono poco esplorate nello sviluppo dei FMs. Successivamente, si pone l'accento sulla mancanza di versatilità dei metodi precedenti nelle diverse applicazioni musicali, insieme al potenziale dei FMs nella comprensione, generazione e applicazione medica della musica. Esplorando in dettaglio il paradigma di pre-addestramento dei modelli, le scelte architetturali, la tokenizzazione, le metodologie di fine-tuning e la controllabilità, sottolineiamo i temi importanti che avrebbero dovuto essere approfonditi, come l'ottimizzazione delle istruzioni e l'apprendimento contestuale, la legge di scala e le capacità emergenti, nonché la modellazione di sequenze lunghe, ecc. Una sezione dedicata presenta approfondimenti sugli agenti musicali, accompagnati da un'analisi approfondita dei dataset e delle valutazioni essenziali per il pre-addestramento e i task downstream. Infine, sottolineando l'importanza cruciale delle considerazioni etiche, sosteniamo che la ricerca futura sui FMs per la musica dovrebbe concentrarsi maggiormente su questioni come l'interpretabilità, la trasparenza, la responsabilità umana e i problemi di copyright. Il documento offre spunti sulle future sfide e tendenze dei FMs per la musica, con l'obiettivo di delineare la traiettoria della collaborazione uomo-AI nel campo musicale.
English
In recent years, foundation models (FMs) such as large language models (LLMs)
and latent diffusion models (LDMs) have profoundly impacted diverse sectors,
including music. This comprehensive review examines state-of-the-art (SOTA)
pre-trained models and foundation models in music, spanning from representation
learning, generative learning and multimodal learning. We first contextualise
the significance of music in various industries and trace the evolution of AI
in music. By delineating the modalities targeted by foundation models, we
discover many of the music representations are underexplored in FM development.
Then, emphasis is placed on the lack of versatility of previous methods on
diverse music applications, along with the potential of FMs in music
understanding, generation and medical application. By comprehensively exploring
the details of the model pre-training paradigm, architectural choices,
tokenisation, finetuning methodologies and controllability, we emphasise the
important topics that should have been well explored, like instruction tuning
and in-context learning, scaling law and emergent ability, as well as
long-sequence modelling etc. A dedicated section presents insights into music
agents, accompanied by a thorough analysis of datasets and evaluations
essential for pre-training and downstream tasks. Finally, by underscoring the
vital importance of ethical considerations, we advocate that following research
on FM for music should focus more on such issues as interpretability,
transparency, human responsibility, and copyright issues. The paper offers
insights into future challenges and trends on FMs for music, aiming to shape
the trajectory of human-AI collaboration in the music realm.