CineBrain: Масштабный мультимодальный набор данных о мозговой активности при обработке естественных аудиовизуальных нарративов
CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing
March 10, 2025
Авторы: Jianxiong Gao, Yichang Liu, Baofeng Yang, Jianfeng Feng, Yanwei Fu
cs.AI
Аннотация
В данной статье мы представляем CineBrain — первый крупномасштабный набор данных, содержащий одновременные записи ЭЭГ и фМРТ во время динамической аудиовизуальной стимуляции. Учитывая комплементарные преимущества высокой временной разрешающей способности ЭЭГ и глубокого пространственного охвата фМРТ, CineBrain предоставляет примерно шесть часов контента, основанного на сюжете популярного телесериала «Теория Большого взрыва», для каждого из шести участников. На основе этого уникального набора данных мы предлагаем CineSync — инновационную мультимодальную декодирующую структуру, которая интегрирует Мультимодальный Фьюжн-Энкодер с диффузионным Нейронным Латентным Декодером. Наш подход эффективно объединяет сигналы ЭЭГ и фМРТ, значительно улучшая качество реконструкции сложных аудиовизуальных стимулов. Для обеспечения строгой оценки мы вводим Cine-Benchmark — всеобъемлющий протокол оценки, который анализирует реконструкции по семантическим и перцептивным измерениям. Экспериментальные результаты демонстрируют, что CineSync достигает передовых показателей в реконструкции видео и подчеркивают наш первоначальный успех в объединении фМРТ и ЭЭГ для реконструкции как видео-, так и аудиостимулов. Страница проекта: https://jianxgao.github.io/CineBrain.
English
In this paper, we introduce CineBrain, the first large-scale dataset
featuring simultaneous EEG and fMRI recordings during dynamic audiovisual
stimulation. Recognizing the complementary strengths of EEG's high temporal
resolution and fMRI's deep-brain spatial coverage, CineBrain provides
approximately six hours of narrative-driven content from the popular television
series The Big Bang Theory for each of six participants. Building upon this
unique dataset, we propose CineSync, an innovative multimodal decoding
framework integrates a Multi-Modal Fusion Encoder with a diffusion-based Neural
Latent Decoder. Our approach effectively fuses EEG and fMRI signals,
significantly improving the reconstruction quality of complex audiovisual
stimuli. To facilitate rigorous evaluation, we introduce Cine-Benchmark, a
comprehensive evaluation protocol that assesses reconstructions across semantic
and perceptual dimensions. Experimental results demonstrate that CineSync
achieves state-of-the-art video reconstruction performance and highlight our
initial success in combining fMRI and EEG for reconstructing both video and
audio stimuli. Project Page: https://jianxgao.github.io/CineBrain.Summary
AI-Generated Summary