Décodage de musique naturaliste à partir de données EEG via des modèles de diffusion latente
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models
May 15, 2024
papers.authors: Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama
cs.AI
papers.abstract
Dans cet article, nous explorons le potentiel des modèles de diffusion latente, une famille de modèles génératifs puissants, pour la tâche de reconstruction de musique naturaliste à partir d'enregistrements électroencéphalographiques (EEG). Contrairement à des musiques plus simples avec des timbres limités, comme des mélodies générées par MIDI ou des pièces monophoniques, l'accent est ici mis sur des musiques complexes comportant une diversité d'instruments, de voix et d'effets, riches en harmoniques et en timbres. Cette étude représente une première incursion dans la reconstruction générale de musique de haute qualité à l'aide de données EEG non invasives, en employant une approche d'apprentissage de bout en bout directement sur les données brutes sans nécessiter de prétraitement manuel ni de sélection de canaux. Nous entraînons nos modèles sur le jeu de données public NMED-T et effectuons une évaluation quantitative en proposant des métriques basées sur des embeddings neuronaux. Nous réalisons également une classification de chansons à partir des pistes générées. Notre travail contribue aux recherches en cours sur le décodage neural et les interfaces cerveau-ordinateur, offrant des perspectives sur la faisabilité de l'utilisation des données EEG pour la reconstruction d'informations auditives complexes.
English
In this article, we explore the potential of using latent diffusion models, a
family of powerful generative models, for the task of reconstructing
naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler
music with limited timbres, such as MIDI-generated tunes or monophonic pieces,
the focus here is on intricate music featuring a diverse array of instruments,
voices, and effects, rich in harmonics and timbre. This study represents an
initial foray into achieving general music reconstruction of high-quality using
non-invasive EEG data, employing an end-to-end training approach directly on
raw data without the need for manual pre-processing and channel selection. We
train our models on the public NMED-T dataset and perform quantitative
evaluation proposing neural embedding-based metrics. We additionally perform
song classification based on the generated tracks. Our work contributes to the
ongoing research in neural decoding and brain-computer interfaces, offering
insights into the feasibility of using EEG data for complex auditory
information reconstruction.