Modèles Fondamentaux pour la Musique : Une Étude
Foundation Models for Music: A Survey
August 26, 2024
Auteurs: Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wehhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang
cs.AI
Résumé
Ces dernières années, les modèles fondamentaux (MF), tels que les grands modèles de langage (GML) et les modèles de diffusion latente (MDL), ont profondément impacté divers secteurs, y compris la musique. Cette revue exhaustive examine les modèles pré-entraînés de pointe (SOTA) et les modèles fondamentaux en musique, couvrant l'apprentissage de la représentation, l'apprentissage génératif et l'apprentissage multimodal. Nous contextualisons d'abord l'importance de la musique dans diverses industries et retraçons l'évolution de l'IA dans la musique. En délimitant les modalités ciblées par les modèles fondamentaux, nous découvrons que de nombreuses représentations musicales sont peu explorées dans le développement des MF. Ensuite, nous mettons l'accent sur le manque de polyvalence des méthodes précédentes dans diverses applications musicales, ainsi que sur le potentiel des MF dans la compréhension, la génération et l'application médicale de la musique. En explorant de manière exhaustive les détails du paradigme de pré-entraînement du modèle, les choix architecturaux, la tokenisation, les méthodologies de finetuning et la contrôlabilité, nous soulignons les sujets importants qui auraient dû être bien explorés, comme l'ajustement des instructions et l'apprentissage en contexte, la loi d'échelle et la capacité émergente, ainsi que la modélisation de longues séquences, etc. Une section dédiée présente des aperçus sur les agents musicaux, accompagnés d'une analyse approfondie des ensembles de données et des évaluations essentielles pour le pré-entraînement et les tâches en aval. Enfin, en soulignant l'importance vitale des considérations éthiques, nous préconisons que les recherches futures sur les MF en musique devraient se concentrer davantage sur des questions telles que l'interprétabilité, la transparence, la responsabilité humaine et les problèmes de droits d'auteur. L'article offre des perspectives sur les défis et tendances futurs des MF en musique, visant à façonner la trajectoire de la collaboration homme-IA dans le domaine musical.
English
In recent years, foundation models (FMs) such as large language models (LLMs)
and latent diffusion models (LDMs) have profoundly impacted diverse sectors,
including music. This comprehensive review examines state-of-the-art (SOTA)
pre-trained models and foundation models in music, spanning from representation
learning, generative learning and multimodal learning. We first contextualise
the significance of music in various industries and trace the evolution of AI
in music. By delineating the modalities targeted by foundation models, we
discover many of the music representations are underexplored in FM development.
Then, emphasis is placed on the lack of versatility of previous methods on
diverse music applications, along with the potential of FMs in music
understanding, generation and medical application. By comprehensively exploring
the details of the model pre-training paradigm, architectural choices,
tokenisation, finetuning methodologies and controllability, we emphasise the
important topics that should have been well explored, like instruction tuning
and in-context learning, scaling law and emergent ability, as well as
long-sequence modelling etc. A dedicated section presents insights into music
agents, accompanied by a thorough analysis of datasets and evaluations
essential for pre-training and downstream tasks. Finally, by underscoring the
vital importance of ethical considerations, we advocate that following research
on FM for music should focus more on such issues as interpretability,
transparency, human responsibility, and copyright issues. The paper offers
insights into future challenges and trends on FMs for music, aiming to shape
the trajectory of human-AI collaboration in the music realm.Summary
AI-Generated Summary