Brain-IT: 脳内相互作用トランスフォーマーによるfMRIからの画像再構成
Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
October 29, 2025
著者: Roman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani
cs.AI
要旨
fMRI(機能的磁気共鳴画像法)による脳活動記録から被験者の見た画像を再構成する技術は、非侵襲的な脳機能解明の手段として注目されている。拡散モデルの進歩により近年飛躍的な発展をみせているものの、既存手法では実際の視覚画像への忠実性が不十分な場合が多い。本研究では「Brain-IT」を提案する。この脳機能に着想を得たアプローチでは、Brain Interaction Transformer(BIT)を中核とし、機能的に類似した脳ボクセル群のクラスター間での効果的な相互作用を実現する。これらの機能クラスターは全被験者で共通する構成要素として、単一脳内および複数脳間の情報統合の基盤となる。全モデル構成要素は全クラスター・全被験者で共有されるため、限られたデータ量での効率的な学習が可能である。画像再構成を導くため、BITは補完的な2種類の局所的なパッチレベル画像特徴を予測する:(i)高次セマンティック特徴は拡散モデルを正しい画像意味内容へ方向付け、(ii)低次構造特徴は拡散プロセスを正しい大まかな画像構図で初期化する。BITの設計により、脳ボクセルクラスターから局所画像特徴への直接的な情報流が実現される。これらの原理に基づき、本手法はfMRIから視覚画像を忠実に再構成し、視覚的評価および客観的指標の両面で現行のState-of-the-Art手法を凌駕する。さらに、新規被験者からのfMRIデータが1時間分のみの場合でも、従来手法が40時間分の全データで学習した結果に匹敵する性能を達成する。
English
Reconstructing images seen by people from their fMRI brain recordings
provides a non-invasive window into the human brain. Despite recent progress
enabled by diffusion models, current methods often lack faithfulness to the
actual seen images. We present "Brain-IT", a brain-inspired approach that
addresses this challenge through a Brain Interaction Transformer (BIT),
allowing effective interactions between clusters of functionally-similar
brain-voxels. These functional-clusters are shared by all subjects, serving as
building blocks for integrating information both within and across brains. All
model components are shared by all clusters & subjects, allowing efficient
training with a limited amount of data. To guide the image reconstruction, BIT
predicts two complementary localized patch-level image features: (i)high-level
semantic features which steer the diffusion model toward the correct semantic
content of the image; and (ii)low-level structural features which help to
initialize the diffusion process with the correct coarse layout of the image.
BIT's design enables direct flow of information from brain-voxel clusters to
localized image features. Through these principles, our method achieves image
reconstructions from fMRI that faithfully reconstruct the seen images, and
surpass current SotA approaches both visually and by standard objective
metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve
results comparable to current methods trained on full 40-hour recordings.