Decodificación de música naturalista a partir de datos EEG mediante modelos de difusión latente
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models
May 15, 2024
Autores: Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama
cs.AI
Resumen
En este artículo, exploramos el potencial de utilizar modelos de difusión latente, una familia de modelos generativos potentes, para la tarea de reconstruir música naturalista a partir de grabaciones de electroencefalograma (EEG). A diferencia de música más simple con timbres limitados, como melodías generadas por MIDI o piezas monofónicas, el enfoque aquí está en música intrincada que presenta una diversa gama de instrumentos, voces y efectos, rica en armónicos y timbre. Este estudio representa una incursión inicial en la reconstrucción general de música de alta calidad utilizando datos de EEG no invasivos, empleando un enfoque de entrenamiento de extremo a extremo directamente sobre datos crudos sin la necesidad de preprocesamiento manual ni selección de canales. Entrenamos nuestros modelos en el conjunto de datos público NMED-T y realizamos una evaluación cuantitativa proponiendo métricas basadas en incrustaciones neuronales. Además, llevamos a cabo una clasificación de canciones basada en las pistas generadas. Nuestro trabajo contribuye a la investigación en curso sobre decodificación neural e interfaces cerebro-computadora, ofreciendo perspectivas sobre la viabilidad de utilizar datos de EEG para la reconstrucción de información auditiva compleja.
English
In this article, we explore the potential of using latent diffusion models, a
family of powerful generative models, for the task of reconstructing
naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler
music with limited timbres, such as MIDI-generated tunes or monophonic pieces,
the focus here is on intricate music featuring a diverse array of instruments,
voices, and effects, rich in harmonics and timbre. This study represents an
initial foray into achieving general music reconstruction of high-quality using
non-invasive EEG data, employing an end-to-end training approach directly on
raw data without the need for manual pre-processing and channel selection. We
train our models on the public NMED-T dataset and perform quantitative
evaluation proposing neural embedding-based metrics. We additionally perform
song classification based on the generated tracks. Our work contributes to the
ongoing research in neural decoding and brain-computer interfaces, offering
insights into the feasibility of using EEG data for complex auditory
information reconstruction.Summary
AI-Generated Summary