Natuurlijke muziekdecodering uit EEG-gegevens via latente diffusiemodellen

Samenvatting

In dit artikel onderzoeken we de mogelijkheden van latente diffusiemodellen, een familie van krachtige generatieve modellen, voor de taak van het reconstrueren van naturalistische muziek uit elektro-encefalogram (EEG)-opnames. In tegenstelling tot eenvoudigere muziek met beperkte klankkleuren, zoals MIDI-gegenereerde melodieën of monofone stukken, ligt de focus hier op complexe muziek met een diverse reeks instrumenten, stemmen en effecten, rijk aan harmonieën en klankkleuren. Deze studie vormt een eerste verkenning in het bereiken van algemene muziekreconstructie van hoge kwaliteit met behulp van niet-invasieve EEG-gegevens, waarbij een end-to-end trainingsbenadering wordt toegepast direct op ruwe data zonder de noodzaak van handmatige voorbewerking en kanaalselectie. We trainen onze modellen op de openbare NMED-T dataset en voeren een kwantitatieve evaluatie uit met voorgestelde op neurale inbedding gebaseerde metrieken. Daarnaast voeren we liedclassificatie uit op basis van de gegenereerde nummers. Ons werk draagt bij aan het lopende onderzoek naar neurale decodering en brain-computer interfaces en biedt inzichten in de haalbaarheid van het gebruik van EEG-gegevens voor de reconstructie van complexe auditieve informatie.

English

In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.

Natuurlijke muziekdecodering uit EEG-gegevens via latente diffusiemodellen

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models

Samenvatting

Support