Decodificação de Música Naturalística a partir de Dados de EEG por meio de Modelos de Difusão Latente
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models
May 15, 2024
Autores: Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama
cs.AI
Resumo
Neste artigo, exploramos o potencial dos modelos de difusão latente, uma família de modelos generativos poderosos, para a tarefa de reconstruir música naturalística a partir de gravações de eletroencefalograma (EEG). Diferente de músicas mais simples com timbres limitados, como melodias geradas por MIDI ou peças monofônicas, o foco aqui está em músicas complexas que apresentam uma diversidade de instrumentos, vozes e efeitos, ricas em harmônicos e timbres. Este estudo representa uma incursão inicial na reconstrução geral de música de alta qualidade utilizando dados de EEG não invasivos, empregando uma abordagem de treinamento end-to-end diretamente em dados brutos, sem a necessidade de pré-processamento manual e seleção de canais. Treinamos nossos modelos no conjunto de dados público NMED-T e realizamos avaliação quantitativa propondo métricas baseadas em embeddings neurais. Além disso, realizamos classificação de músicas com base nas faixas geradas. Nosso trabalho contribui para a pesquisa contínua em decodificação neural e interfaces cérebro-computador, oferecendo insights sobre a viabilidade de usar dados de EEG para a reconstrução de informações auditivas complexas.
English
In this article, we explore the potential of using latent diffusion models, a
family of powerful generative models, for the task of reconstructing
naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler
music with limited timbres, such as MIDI-generated tunes or monophonic pieces,
the focus here is on intricate music featuring a diverse array of instruments,
voices, and effects, rich in harmonics and timbre. This study represents an
initial foray into achieving general music reconstruction of high-quality using
non-invasive EEG data, employing an end-to-end training approach directly on
raw data without the need for manual pre-processing and channel selection. We
train our models on the public NMED-T dataset and perform quantitative
evaluation proposing neural embedding-based metrics. We additionally perform
song classification based on the generated tracks. Our work contributes to the
ongoing research in neural decoding and brain-computer interfaces, offering
insights into the feasibility of using EEG data for complex auditory
information reconstruction.