ChatPaper.aiChatPaper

fMRI-3D : Un ensemble de données exhaustif pour améliorer la reconstruction 3D basée sur l'IRMf

fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction

September 17, 2024
Auteurs: Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu
cs.AI

Résumé

La reconstruction de visuels en 3D à partir de données d'Imagerie par Résonance Magnétique fonctionnelle (IRMf), présentée sous le nom de Recon3DMind dans notre travail de conférence, suscite un intérêt significatif à la fois pour la neuroscience cognitive et la vision par ordinateur. Pour faire progresser cette tâche, nous présentons l'ensemble de données fMRI-3D, qui comprend des données de 15 participants et présente un total de 4768 objets en 3D. L'ensemble de données se compose de deux composants : fMRI-Forme, précédemment introduit et accessible sur https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, et fMRI-Objaverse, proposé dans cet article et disponible sur https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse inclut des données de 5 sujets, dont 4 font également partie de l'ensemble de base dans fMRI-Forme, chaque sujet visualisant 3142 objets en 3D répartis dans 117 catégories, tous accompagnés de légendes textuelles. Cela améliore considérablement la diversité et les applications potentielles de l'ensemble de données. De plus, nous proposons MinD-3D, un nouveau cadre conçu pour décoder les informations visuelles en 3D à partir des signaux IRMf. Le cadre extrait d'abord et agrège les caractéristiques des données IRMf à l'aide d'un encodeur de neuro-fusion, puis utilise un modèle de diffusion de pont de caractéristiques pour générer des caractéristiques visuelles, et enfin reconstruit l'objet en 3D à l'aide d'un décodeur transformateur génératif. Nous établissons de nouveaux benchmarks en concevant des métriques à la fois au niveau sémantique et structurel pour évaluer les performances du modèle. De plus, nous évaluons l'efficacité de notre modèle dans un cadre Hors-Distribution et analysons l'attribution des caractéristiques extraites et des ROI visuels dans les signaux IRMf. Nos expériences démontrent que MinD-3D non seulement reconstruit des objets en 3D avec une précision sémantique et spatiale élevée, mais approfondit également notre compréhension de la manière dont le cerveau humain traite les informations visuelles en 3D. Page du projet : https://jianxgao.github.io/MinD-3D.
English
Reconstructing 3D visuals from functional Magnetic Resonance Imaging (fMRI) data, introduced as Recon3DMind in our conference work, is of significant interest to both cognitive neuroscience and computer vision. To advance this task, we present the fMRI-3D dataset, which includes data from 15 participants and showcases a total of 4768 3D objects. The dataset comprises two components: fMRI-Shape, previously introduced and accessible at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, and fMRI-Objaverse, proposed in this paper and available at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse includes data from 5 subjects, 4 of whom are also part of the Core set in fMRI-Shape, with each subject viewing 3142 3D objects across 117 categories, all accompanied by text captions. This significantly enhances the diversity and potential applications of the dataset. Additionally, we propose MinD-3D, a novel framework designed to decode 3D visual information from fMRI signals. The framework first extracts and aggregates features from fMRI data using a neuro-fusion encoder, then employs a feature-bridge diffusion model to generate visual features, and finally reconstructs the 3D object using a generative transformer decoder. We establish new benchmarks by designing metrics at both semantic and structural levels to evaluate model performance. Furthermore, we assess our model's effectiveness in an Out-of-Distribution setting and analyze the attribution of the extracted features and the visual ROIs in fMRI signals. Our experiments demonstrate that MinD-3D not only reconstructs 3D objects with high semantic and spatial accuracy but also deepens our understanding of how human brain processes 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D.

Summary

AI-Generated Summary

PDF21November 16, 2024