ChatPaper.aiChatPaper

Decodificação de Música Naturalística a partir de Dados de EEG por meio de Modelos de Difusão Latente

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models

May 15, 2024
Autores: Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama
cs.AI

Resumo

Neste artigo, exploramos o potencial dos modelos de difusão latente, uma família de modelos generativos poderosos, para a tarefa de reconstruir música naturalística a partir de gravações de eletroencefalograma (EEG). Diferente de músicas mais simples com timbres limitados, como melodias geradas por MIDI ou peças monofônicas, o foco aqui está em músicas complexas que apresentam uma diversidade de instrumentos, vozes e efeitos, ricas em harmônicos e timbres. Este estudo representa uma incursão inicial na reconstrução geral de música de alta qualidade utilizando dados de EEG não invasivos, empregando uma abordagem de treinamento end-to-end diretamente em dados brutos, sem a necessidade de pré-processamento manual e seleção de canais. Treinamos nossos modelos no conjunto de dados público NMED-T e realizamos avaliação quantitativa propondo métricas baseadas em embeddings neurais. Além disso, realizamos classificação de músicas com base nas faixas geradas. Nosso trabalho contribui para a pesquisa contínua em decodificação neural e interfaces cérebro-computador, oferecendo insights sobre a viabilidade de usar dados de EEG para a reconstrução de informações auditivas complexas.
English
In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.
PDF140December 15, 2024