fMRI-3D : Un ensemble de données exhaustif pour améliorer la reconstruction 3D basée sur l'IRMf
fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction
September 17, 2024
Auteurs: Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu
cs.AI
Résumé
La reconstruction de visuels en 3D à partir de données d'Imagerie par Résonance Magnétique fonctionnelle (IRMf), présentée sous le nom de Recon3DMind dans notre travail de conférence, suscite un intérêt significatif à la fois pour la neuroscience cognitive et la vision par ordinateur. Pour faire progresser cette tâche, nous présentons l'ensemble de données fMRI-3D, qui comprend des données de 15 participants et présente un total de 4768 objets en 3D. L'ensemble de données se compose de deux composants : fMRI-Forme, précédemment introduit et accessible sur https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, et fMRI-Objaverse, proposé dans cet article et disponible sur https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse inclut des données de 5 sujets, dont 4 font également partie de l'ensemble de base dans fMRI-Forme, chaque sujet visualisant 3142 objets en 3D répartis dans 117 catégories, tous accompagnés de légendes textuelles. Cela améliore considérablement la diversité et les applications potentielles de l'ensemble de données. De plus, nous proposons MinD-3D, un nouveau cadre conçu pour décoder les informations visuelles en 3D à partir des signaux IRMf. Le cadre extrait d'abord et agrège les caractéristiques des données IRMf à l'aide d'un encodeur de neuro-fusion, puis utilise un modèle de diffusion de pont de caractéristiques pour générer des caractéristiques visuelles, et enfin reconstruit l'objet en 3D à l'aide d'un décodeur transformateur génératif. Nous établissons de nouveaux benchmarks en concevant des métriques à la fois au niveau sémantique et structurel pour évaluer les performances du modèle. De plus, nous évaluons l'efficacité de notre modèle dans un cadre Hors-Distribution et analysons l'attribution des caractéristiques extraites et des ROI visuels dans les signaux IRMf. Nos expériences démontrent que MinD-3D non seulement reconstruit des objets en 3D avec une précision sémantique et spatiale élevée, mais approfondit également notre compréhension de la manière dont le cerveau humain traite les informations visuelles en 3D. Page du projet : https://jianxgao.github.io/MinD-3D.
English
Reconstructing 3D visuals from functional Magnetic Resonance Imaging (fMRI)
data, introduced as Recon3DMind in our conference work, is of significant
interest to both cognitive neuroscience and computer vision. To advance this
task, we present the fMRI-3D dataset, which includes data from 15 participants
and showcases a total of 4768 3D objects. The dataset comprises two components:
fMRI-Shape, previously introduced and accessible at
https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, and fMRI-Objaverse,
proposed in this paper and available at
https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse
includes data from 5 subjects, 4 of whom are also part of the Core set in
fMRI-Shape, with each subject viewing 3142 3D objects across 117 categories,
all accompanied by text captions. This significantly enhances the diversity and
potential applications of the dataset. Additionally, we propose MinD-3D, a
novel framework designed to decode 3D visual information from fMRI signals. The
framework first extracts and aggregates features from fMRI data using a
neuro-fusion encoder, then employs a feature-bridge diffusion model to generate
visual features, and finally reconstructs the 3D object using a generative
transformer decoder. We establish new benchmarks by designing metrics at both
semantic and structural levels to evaluate model performance. Furthermore, we
assess our model's effectiveness in an Out-of-Distribution setting and analyze
the attribution of the extracted features and the visual ROIs in fMRI signals.
Our experiments demonstrate that MinD-3D not only reconstructs 3D objects with
high semantic and spatial accuracy but also deepens our understanding of how
human brain processes 3D visual information. Project page at:
https://jianxgao.github.io/MinD-3D.Summary
AI-Generated Summary