Modelos base para la música: Un estudio
Foundation Models for Music: A Survey
August 26, 2024
Autores: Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wehhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang
cs.AI
Resumen
En los últimos años, los modelos base (MBs) como los grandes modelos de lenguaje (GMLs) y los modelos de difusión latente (MDLs) han impactado profundamente diversos sectores, incluida la música. Esta revisión exhaustiva examina los modelos pre-entrenados de última generación y los modelos base en música, abarcando desde el aprendizaje de representaciones, el aprendizaje generativo y el aprendizaje multimodal. Primero contextualizamos la importancia de la música en diversas industrias y rastreamos la evolución de la IA en la música. Al delinear las modalidades enfocadas por los modelos base, descubrimos que muchas de las representaciones musicales están poco exploradas en el desarrollo de MBs. Luego, se hace hincapié en la falta de versatilidad de los métodos anteriores en diversas aplicaciones musicales, junto con el potencial de los MBs en la comprensión, generación y aplicación médica de la música. Al explorar exhaustivamente los detalles del paradigma de pre-entrenamiento del modelo, las elecciones arquitectónicas, la tokenización, las metodologías de ajuste fino y la controlabilidad, destacamos los temas importantes que deberían haber sido bien explorados, como la sintonización de instrucciones y el aprendizaje en contexto, la ley de escalado y la capacidad emergente, así como el modelado de secuencias largas, etc. Una sección dedicada presenta ideas sobre agentes musicales, acompañada de un análisis exhaustivo de conjuntos de datos y evaluaciones esenciales para el pre-entrenamiento y tareas posteriores. Finalmente, al subrayar la importancia vital de consideraciones éticas, abogamos porque la investigación futura sobre MBs para la música se centre más en problemas como la interpretabilidad, la transparencia, la responsabilidad humana y cuestiones de derechos de autor. El documento ofrece ideas sobre los desafíos y tendencias futuras en MBs para la música, con el objetivo de dar forma a la trayectoria de la colaboración humano-IA en el ámbito musical.
English
In recent years, foundation models (FMs) such as large language models (LLMs)
and latent diffusion models (LDMs) have profoundly impacted diverse sectors,
including music. This comprehensive review examines state-of-the-art (SOTA)
pre-trained models and foundation models in music, spanning from representation
learning, generative learning and multimodal learning. We first contextualise
the significance of music in various industries and trace the evolution of AI
in music. By delineating the modalities targeted by foundation models, we
discover many of the music representations are underexplored in FM development.
Then, emphasis is placed on the lack of versatility of previous methods on
diverse music applications, along with the potential of FMs in music
understanding, generation and medical application. By comprehensively exploring
the details of the model pre-training paradigm, architectural choices,
tokenisation, finetuning methodologies and controllability, we emphasise the
important topics that should have been well explored, like instruction tuning
and in-context learning, scaling law and emergent ability, as well as
long-sequence modelling etc. A dedicated section presents insights into music
agents, accompanied by a thorough analysis of datasets and evaluations
essential for pre-training and downstream tasks. Finally, by underscoring the
vital importance of ethical considerations, we advocate that following research
on FM for music should focus more on such issues as interpretability,
transparency, human responsibility, and copyright issues. The paper offers
insights into future challenges and trends on FMs for music, aiming to shape
the trajectory of human-AI collaboration in the music realm.Summary
AI-Generated Summary