Декодирование натуралистической музыки из данных ЭЭГ с помощью моделей латентной диффузии
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models
May 15, 2024
Авторы: Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama
cs.AI
Аннотация
В данной статье мы исследуем потенциал использования моделей латентной диффузии, семейства мощных генеративных моделей, для задачи восстановления натуралистической музыки из записей электроэнцефалограммы (ЭЭГ). В отличие от более простой музыки с ограниченными тембрами, такой как мелодии, сгенерированные в формате MIDI или монофонические произведения, здесь акцент делается на сложной музыке с разнообразным набором инструментов, голосов и эффектов, богатой гармониками и тембром. Это исследование представляет собой первоначальное знакомство с достижением общего восстановления музыки высокого качества с использованием неинвазивных данных ЭЭГ, применяя подход обучения от начала до конца непосредственно на исходных данных без необходимости ручной предварительной обработки и выбора каналов. Мы обучаем наши модели на общедоступном наборе данных NMED-T и проводим количественную оценку, предлагая метрики на основе нейронных вложений. Дополнительно мы проводим классификацию песен на основе сгенерированных треков. Наша работа вносит вклад в текущие исследования в области нейронного декодирования и мозг-компьютерных интерфейсов, предлагая понимание возможности использования данных ЭЭГ для восстановления сложной аудиоинформации.
English
In this article, we explore the potential of using latent diffusion models, a
family of powerful generative models, for the task of reconstructing
naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler
music with limited timbres, such as MIDI-generated tunes or monophonic pieces,
the focus here is on intricate music featuring a diverse array of instruments,
voices, and effects, rich in harmonics and timbre. This study represents an
initial foray into achieving general music reconstruction of high-quality using
non-invasive EEG data, employing an end-to-end training approach directly on
raw data without the need for manual pre-processing and channel selection. We
train our models on the public NMED-T dataset and perform quantitative
evaluation proposing neural embedding-based metrics. We additionally perform
song classification based on the generated tracks. Our work contributes to the
ongoing research in neural decoding and brain-computer interfaces, offering
insights into the feasibility of using EEG data for complex auditory
information reconstruction.Summary
AI-Generated Summary