Natuurlijke muziekdecodering uit EEG-gegevens via latente diffusiemodellen
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models
May 15, 2024
Auteurs: Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama
cs.AI
Samenvatting
In dit artikel onderzoeken we de mogelijkheden van latente diffusiemodellen, een familie van krachtige generatieve modellen, voor de taak van het reconstrueren van naturalistische muziek uit elektro-encefalogram (EEG)-opnames. In tegenstelling tot eenvoudigere muziek met beperkte klankkleuren, zoals MIDI-gegenereerde melodieën of monofone stukken, ligt de focus hier op complexe muziek met een diverse reeks instrumenten, stemmen en effecten, rijk aan harmonieën en klankkleuren. Deze studie vormt een eerste verkenning in het bereiken van algemene muziekreconstructie van hoge kwaliteit met behulp van niet-invasieve EEG-gegevens, waarbij een end-to-end trainingsbenadering wordt toegepast direct op ruwe data zonder de noodzaak van handmatige voorbewerking en kanaalselectie. We trainen onze modellen op de openbare NMED-T dataset en voeren een kwantitatieve evaluatie uit met voorgestelde op neurale inbedding gebaseerde metrieken. Daarnaast voeren we liedclassificatie uit op basis van de gegenereerde nummers. Ons werk draagt bij aan het lopende onderzoek naar neurale decodering en brain-computer interfaces en biedt inzichten in de haalbaarheid van het gebruik van EEG-gegevens voor de reconstructie van complexe auditieve informatie.
English
In this article, we explore the potential of using latent diffusion models, a
family of powerful generative models, for the task of reconstructing
naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler
music with limited timbres, such as MIDI-generated tunes or monophonic pieces,
the focus here is on intricate music featuring a diverse array of instruments,
voices, and effects, rich in harmonics and timbre. This study represents an
initial foray into achieving general music reconstruction of high-quality using
non-invasive EEG data, employing an end-to-end training approach directly on
raw data without the need for manual pre-processing and channel selection. We
train our models on the public NMED-T dataset and perform quantitative
evaluation proposing neural embedding-based metrics. We additionally perform
song classification based on the generated tracks. Our work contributes to the
ongoing research in neural decoding and brain-computer interfaces, offering
insights into the feasibility of using EEG data for complex auditory
information reconstruction.