fMRI-3D: fMRIベースの3D再構築を向上させるための包括的データセット
fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction
September 17, 2024
著者: Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu
cs.AI
要旨
機能的磁気共鳴イメージング(fMRI)データから3Dビジュアルを再構築することは、認知神経科学とコンピュータビジョンの両方にとって非常に興味深いものです。この課題を前進させるために、我々はfMRI-3Dデータセットを提示します。このデータセットには15人の参加者のデータが含まれ、合計4768個の3Dオブジェクトが展示されています。データセットには2つのコンポーネントが含まれており、以前に紹介されたfMRI-ShapeとfMRI-Objaverseが含まれています。fMRI-Shapeは以下のURLからアクセス可能であり、fMRI-Objaverseは本論文で提案され、以下のURLで利用可能です。fMRI-Objaverseには5人の被験者のデータが含まれており、そのうち4人はfMRI-Shapeのコアセットの一部であり、それぞれの被験者が117のカテゴリにわたる3142個の3Dオブジェクトを観察しており、すべてのオブジェクトにはテキストキャプションが付属しています。これにより、データセットの多様性と潜在的な応用が大幅に向上します。さらに、fMRI信号から3Dビジュアル情報をデコードするために設計された新しいフレームワークであるMinD-3Dを提案します。このフレームワークは、最初にfMRIデータから特徴を抽出し集約する神経融合エンコーダを使用し、次に特徴ブリッジ拡散モデルを用いてビジュアル特徴を生成し、最後に生成的トランスフォーマーデコーダを使用して3Dオブジェクトを再構築します。我々は、モデルのパフォーマンスを評価するために意味レベルと構造レベルの両方でメトリクスを設計することで新たな基準を確立します。さらに、我々はモデルの有効性を分析し、fMRI信号内の抽出された特徴と視覚的ROIの帰属を評価します。実験により、MinD-3Dが高い意味的および空間的精度で3Dオブジェクトを再構築するだけでなく、人間の脳が3Dビジュアル情報を処理する方法についての理解を深めることが示されました。プロジェクトページは以下のURLにあります:https://jianxgao.github.io/MinD-3D。
English
Reconstructing 3D visuals from functional Magnetic Resonance Imaging (fMRI)
data, introduced as Recon3DMind in our conference work, is of significant
interest to both cognitive neuroscience and computer vision. To advance this
task, we present the fMRI-3D dataset, which includes data from 15 participants
and showcases a total of 4768 3D objects. The dataset comprises two components:
fMRI-Shape, previously introduced and accessible at
https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, and fMRI-Objaverse,
proposed in this paper and available at
https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse
includes data from 5 subjects, 4 of whom are also part of the Core set in
fMRI-Shape, with each subject viewing 3142 3D objects across 117 categories,
all accompanied by text captions. This significantly enhances the diversity and
potential applications of the dataset. Additionally, we propose MinD-3D, a
novel framework designed to decode 3D visual information from fMRI signals. The
framework first extracts and aggregates features from fMRI data using a
neuro-fusion encoder, then employs a feature-bridge diffusion model to generate
visual features, and finally reconstructs the 3D object using a generative
transformer decoder. We establish new benchmarks by designing metrics at both
semantic and structural levels to evaluate model performance. Furthermore, we
assess our model's effectiveness in an Out-of-Distribution setting and analyze
the attribution of the extracted features and the visual ROIs in fMRI signals.
Our experiments demonstrate that MinD-3D not only reconstructs 3D objects with
high semantic and spatial accuracy but also deepens our understanding of how
human brain processes 3D visual information. Project page at:
https://jianxgao.github.io/MinD-3D.Summary
AI-Generated Summary