ChatPaper.aiChatPaper

Grundmodelle für Musik: Eine Übersicht

Foundation Models for Music: A Survey

August 26, 2024
Autoren: Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wehhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang
cs.AI

Zusammenfassung

In den letzten Jahren haben Grundlagenmodelle (FMs) wie große Sprachmodelle (LLMs) und latente Diffusionsmodelle (LDMs) verschiedene Branchen, einschließlich der Musik, maßgeblich beeinflusst. Diese umfassende Übersicht untersucht hochmoderne vortrainierte Modelle und Grundlagenmodelle in der Musik, die von der Repräsentationslernen über das generative Lernen bis hin zum multimodalen Lernen reichen. Zunächst kontextualisieren wir die Bedeutung von Musik in verschiedenen Branchen und verfolgen die Entwicklung der KI in der Musik. Indem wir die Modalitäten, die von Grundlagenmodellen anvisiert werden, abgrenzen, entdecken wir, dass viele der Musikrepräsentationen in der FM-Entwicklung noch nicht ausreichend erforscht sind. Dann wird der Schwerpunkt auf der mangelnden Vielseitigkeit früherer Methoden bei verschiedenen Musik-Anwendungen sowie dem Potenzial von FMs in der Musikverständnis, -erzeugung und medizinischen Anwendung gelegt. Durch eine umfassende Erkundung der Details des Modellvortrainingsparadigmas, architektonischer Entscheidungen, Tokenisierung, Feinabstimmungsmethoden und Steuerbarkeit betonen wir die wichtigen Themen, die gut erforscht worden sein sollten, wie beispielsweise Instruktionstuning und kontextbezogenes Lernen, Skalierungsgesetz und emergente Fähigkeit sowie Modellierung langer Sequenzen usw. Ein eigener Abschnitt bietet Einblicke in Musikagenten, begleitet von einer gründlichen Analyse von Datensätzen und Bewertungen, die für das Vortraining und nachgelagerte Aufgaben unerlässlich sind. Abschließend betonen wir die vitale Bedeutung ethischer Überlegungen und plädieren dafür, dass zukünftige Forschungen zu FMs für Musik sich stärker auf Themen wie Interpretierbarkeit, Transparenz, menschliche Verantwortung und Urheberrechtsfragen konzentrieren sollten. Der Artikel bietet Einblicke in zukünftige Herausforderungen und Trends bei FMs für Musik, mit dem Ziel, die Ausrichtung der Zusammenarbeit zwischen Mensch und KI im Musikbereich zu gestalten.
English
In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm.

Summary

AI-Generated Summary

PDF452November 16, 2024