Декодирование натуралистической музыки из данных ЭЭГ с помощью моделей латентной диффузии

Аннотация

В данной статье мы исследуем потенциал использования моделей латентной диффузии, семейства мощных генеративных моделей, для задачи восстановления натуралистической музыки из записей электроэнцефалограммы (ЭЭГ). В отличие от более простой музыки с ограниченными тембрами, такой как мелодии, сгенерированные в формате MIDI или монофонические произведения, здесь акцент делается на сложной музыке с разнообразным набором инструментов, голосов и эффектов, богатой гармониками и тембром. Это исследование представляет собой первоначальное знакомство с достижением общего восстановления музыки высокого качества с использованием неинвазивных данных ЭЭГ, применяя подход обучения от начала до конца непосредственно на исходных данных без необходимости ручной предварительной обработки и выбора каналов. Мы обучаем наши модели на общедоступном наборе данных NMED-T и проводим количественную оценку, предлагая метрики на основе нейронных вложений. Дополнительно мы проводим классификацию песен на основе сгенерированных треков. Наша работа вносит вклад в текущие исследования в области нейронного декодирования и мозг-компьютерных интерфейсов, предлагая понимание возможности использования данных ЭЭГ для восстановления сложной аудиоинформации.

English

In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.

Декодирование натуралистической музыки из данных ЭЭГ с помощью моделей латентной диффузии

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models

Аннотация

Support