Decodifica della musica naturalistica dai dati EEG tramite modelli di diffusione latente
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models
May 15, 2024
Autori: Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama
cs.AI
Abstract
In questo articolo, esploriamo il potenziale dell'utilizzo di modelli di diffusione latente, una famiglia di potenti modelli generativi, per il compito di ricostruire musica naturalistica a partire da registrazioni di elettroencefalogramma (EEG). A differenza di musica più semplice con timbri limitati, come brani generati da MIDI o pezzi monofonici, l'attenzione qui è rivolta a musica complessa che presenta una vasta gamma di strumenti, voci ed effetti, ricca di armoniche e timbri. Questo studio rappresenta un primo tentativo di ottenere una ricostruzione musicale generale di alta qualità utilizzando dati EEG non invasivi, impiegando un approccio di addestramento end-to-end direttamente sui dati grezzi senza la necessità di pre-elaborazione manuale e selezione dei canali. Addestriamo i nostri modelli sul dataset pubblico NMED-T e eseguiamo una valutazione quantitativa proponendo metriche basate su embedding neurali. Inoltre, eseguiamo una classificazione dei brani basata sulle tracce generate. Il nostro lavoro contribuisce alla ricerca in corso sul decoding neurale e sulle interfacce cervello-computer, offrendo approfondimenti sulla fattibilità dell'utilizzo di dati EEG per la ricostruzione di informazioni uditive complesse.
English
In this article, we explore the potential of using latent diffusion models, a
family of powerful generative models, for the task of reconstructing
naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler
music with limited timbres, such as MIDI-generated tunes or monophonic pieces,
the focus here is on intricate music featuring a diverse array of instruments,
voices, and effects, rich in harmonics and timbre. This study represents an
initial foray into achieving general music reconstruction of high-quality using
non-invasive EEG data, employing an end-to-end training approach directly on
raw data without the need for manual pre-processing and channel selection. We
train our models on the public NMED-T dataset and perform quantitative
evaluation proposing neural embedding-based metrics. We additionally perform
song classification based on the generated tracks. Our work contributes to the
ongoing research in neural decoding and brain-computer interfaces, offering
insights into the feasibility of using EEG data for complex auditory
information reconstruction.