CineBrain: Um Grande Conjunto de Dados Multimodais do Cérebro Durante o Processamento de Narrativas Audiovisuais Naturalistas
CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing
March 10, 2025
Autores: Jianxiong Gao, Yichang Liu, Baofeng Yang, Jianfeng Feng, Yanwei Fu
cs.AI
Resumo
Neste artigo, apresentamos o CineBrain, o primeiro conjunto de dados em larga escala que apresenta gravações simultâneas de EEG e fMRI durante a estimulação audiovisual dinâmica. Reconhecendo os pontos fortes complementares da alta resolução temporal do EEG e da cobertura espacial profunda do fMRI, o CineBrain fornece aproximadamente seis horas de conteúdo narrativo da popular série de televização The Big Bang Theory para cada um dos seis participantes. Com base nesse conjunto de dados único, propomos o CineSync, uma estrutura inovadora de decodificação multimodal que integra um Codificador de Fusão Multimodal com um Decodificador de Latente Neural baseado em difusão. Nossa abordagem efetivamente funde sinais de EEG e fMRI, melhorando significativamente a qualidade da reconstrução de estímulos audiovisuais complexos. Para facilitar uma avaliação rigorosa, introduzimos o Cine-Benchmark, um protocolo abrangente de avaliação que analisa as reconstruções em dimensões semânticas e perceptivas. Os resultados experimentais demonstram que o CineSync alcança um desempenho de reconstrução de vídeo de ponta e destacam nosso sucesso inicial em combinar fMRI e EEG para reconstruir tanto estímulos de vídeo quanto de áudio. Página do Projeto: https://jianxgao.github.io/CineBrain.
English
In this paper, we introduce CineBrain, the first large-scale dataset
featuring simultaneous EEG and fMRI recordings during dynamic audiovisual
stimulation. Recognizing the complementary strengths of EEG's high temporal
resolution and fMRI's deep-brain spatial coverage, CineBrain provides
approximately six hours of narrative-driven content from the popular television
series The Big Bang Theory for each of six participants. Building upon this
unique dataset, we propose CineSync, an innovative multimodal decoding
framework integrates a Multi-Modal Fusion Encoder with a diffusion-based Neural
Latent Decoder. Our approach effectively fuses EEG and fMRI signals,
significantly improving the reconstruction quality of complex audiovisual
stimuli. To facilitate rigorous evaluation, we introduce Cine-Benchmark, a
comprehensive evaluation protocol that assesses reconstructions across semantic
and perceptual dimensions. Experimental results demonstrate that CineSync
achieves state-of-the-art video reconstruction performance and highlight our
initial success in combining fMRI and EEG for reconstructing both video and
audio stimuli. Project Page: https://jianxgao.github.io/CineBrain.Summary
AI-Generated Summary