Фундаментальные модели для музыки: обзор

Аннотация

В последние годы фундаментальные модели (FMs), такие как большие языковые модели (LLMs) и модели латентной диффузии (LDMs), глубоко повлияли на различные секторы, включая музыку. В данном всестороннем обзоре рассматриваются передовые модели предварительного обучения (SOTA) и фундаментальные модели в музыке, охватывая области обучения представлений, генеративного обучения и мультимодального обучения. Сначала мы контекстуализируем значимость музыки в различных отраслях и прослеживаем эволюцию искусственного интеллекта в музыке. Определив модальности, на которые направлены фундаментальные модели, мы обнаруживаем, что многие представления музыки недостаточно исследованы в развитии FM. Затем делается акцент на недостаточной универсальности предыдущих методов в различных музыкальных приложениях, а также на потенциале FMs в понимании музыки, генерации и медицинском применении. Путем всестороннего изучения деталей парадигмы предварительного обучения модели, архитектурных выборов, токенизации, методологий донастройки и управляемости, мы подчеркиваем важные темы, которые должны были быть хорошо изучены, такие как настройка инструкций и обучение в контексте, закон масштабирования и возможности, а также моделирование длинных последовательностей и т. д. Отдельный раздел представляет анализ агентов музыки, сопровождаемый тщательным анализом наборов данных и оценок, необходимых для предварительного обучения и последующих задач. Наконец, подчеркивая важность этических соображений, мы выступаем за то, чтобы последующие исследования по FM для музыки уделяли больше внимания таким вопросам, как интерпретируемость, прозрачность, человеческая ответственность и авторские права. Статья предлагает взгляд на будущие вызовы и тенденции в области FM для музыки с целью формирования траектории сотрудничества человека и искусственного интеллекта в области музыки.

English

In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm.

Фундаментальные модели для музыки: обзор

Foundation Models for Music: A Survey

Аннотация

Support