CineBrain: Un Ampio Dataset Cerebrale Multi-Modale Durante l'Elaborazione di Narrazioni Audiovisive Naturalistiche
CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing
March 10, 2025
Autori: Jianxiong Gao, Yichang Liu, Baofeng Yang, Jianfeng Feng, Yanwei Fu
cs.AI
Abstract
In questo articolo presentiamo CineBrain, il primo dataset su larga scala che include registrazioni simultanee di EEG e fMRI durante stimolazione audiovisiva dinamica. Riconoscendo i punti di forza complementari dell'alta risoluzione temporale dell'EEG e della copertura spaziale profonda del cervello offerta dalla fMRI, CineBrain fornisce circa sei ore di contenuti narrativi tratti dalla popolare serie televisiva The Big Bang Theory per ciascuno dei sei partecipanti. Basandoci su questo dataset unico, proponiamo CineSync, un innovativo framework di decodifica multimodale che integra un Multi-Modal Fusion Encoder con un Neural Latent Decoder basato su diffusione. Il nostro approccio fonde efficacemente i segnali EEG e fMRI, migliorando significativamente la qualità della ricostruzione di stimoli audiovisivi complessi. Per facilitare una valutazione rigorosa, introduciamo Cine-Benchmark, un protocollo di valutazione completo che analizza le ricostruzioni attraverso dimensioni semantiche e percettive. I risultati sperimentali dimostrano che CineSync raggiunge prestazioni all'avanguardia nella ricostruzione video e sottolineano il nostro iniziale successo nel combinare fMRI ed EEG per ricostruire sia stimoli video che audio. Pagina del progetto: https://jianxgao.github.io/CineBrain.
English
In this paper, we introduce CineBrain, the first large-scale dataset
featuring simultaneous EEG and fMRI recordings during dynamic audiovisual
stimulation. Recognizing the complementary strengths of EEG's high temporal
resolution and fMRI's deep-brain spatial coverage, CineBrain provides
approximately six hours of narrative-driven content from the popular television
series The Big Bang Theory for each of six participants. Building upon this
unique dataset, we propose CineSync, an innovative multimodal decoding
framework integrates a Multi-Modal Fusion Encoder with a diffusion-based Neural
Latent Decoder. Our approach effectively fuses EEG and fMRI signals,
significantly improving the reconstruction quality of complex audiovisual
stimuli. To facilitate rigorous evaluation, we introduce Cine-Benchmark, a
comprehensive evaluation protocol that assesses reconstructions across semantic
and perceptual dimensions. Experimental results demonstrate that CineSync
achieves state-of-the-art video reconstruction performance and highlight our
initial success in combining fMRI and EEG for reconstructing both video and
audio stimuli. Project Page: https://jianxgao.github.io/CineBrain.