ChatPaper.aiChatPaper

Brain-IT: 뇌 상호작용 트랜스포머를 통한 기능적 자기공명영상 기반 이미지 재구성

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

October 29, 2025
저자: Roman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani
cs.AI

초록

사람들의 fMRI 뇌 기록으로부터 본 이미지를 재구성하는 것은 인간 뇌를 들여다볼 수 있는 비침습적 창구를 제공합니다. 확산 모델 덕분에 최근 진전이 있었으나, 현재 방법들은 실제 본 이미지에 대한 충실도가 부족한 경우가 많습니다. 본 논문에서는 이러한 문제를 해결하기 위해 기능적으로 유사한 뇌 복셀 군집 간의 효과적인 상호작용을 가능하게 하는 Brain Interaction Transformer(BIT)를 통한 뇌 영감 접근법 "Brain-IT"를 제안합니다. 이러한 기능적 군집은 모든 피험자에게 공통적으로 존재하며, 단일 뇌 내 및 여러 뇌 간 정보 통합을 위한 기본 구성 요소로 작용합니다. 모든 모델 구성 요소는 모든 군집과 피험자에게 공유되어 제한된 양의 데이터로도 효율적인 학습이 가능합니다. 이미지 재구성을 안내하기 위해 BIT는 두 가지 상호 보완적인 지역적 패치 수준 이미지 특징을 예측합니다: (i) 확산 모델을 이미지의 올바른 의미론적 내용으로 이끄는 고수준 의미 특징과 (ii) 확산 과정을 이미지의 올바른 개요 구조로 초기화하는 데 도움을 주는 저수준 구조 특징입니다. BIT의 설계는 뇌 복셀 군집으로부터 지역적 이미지 특징으로의 직접적인 정보 흐름을 가능하게 합니다. 이러한 원리를 통해 우리 방법은 fMRI로부터 본 이미지를 충실하게 재구성하며, 시각적 및 표준 객관적 지표 모두에서 현재 최첨단 접근법을 능가합니다. 더 나아가, 새로운 피험자의 단 1시간 분량의 fMRI 데이터만으로도 기존 방법들이 40시간 전체 기록으로 학습한 결과에 필적하는 성과를 달성합니다.
English
Reconstructing images seen by people from their fMRI brain recordings provides a non-invasive window into the human brain. Despite recent progress enabled by diffusion models, current methods often lack faithfulness to the actual seen images. We present "Brain-IT", a brain-inspired approach that addresses this challenge through a Brain Interaction Transformer (BIT), allowing effective interactions between clusters of functionally-similar brain-voxels. These functional-clusters are shared by all subjects, serving as building blocks for integrating information both within and across brains. All model components are shared by all clusters & subjects, allowing efficient training with a limited amount of data. To guide the image reconstruction, BIT predicts two complementary localized patch-level image features: (i)high-level semantic features which steer the diffusion model toward the correct semantic content of the image; and (ii)low-level structural features which help to initialize the diffusion process with the correct coarse layout of the image. BIT's design enables direct flow of information from brain-voxel clusters to localized image features. Through these principles, our method achieves image reconstructions from fMRI that faithfully reconstruct the seen images, and surpass current SotA approaches both visually and by standard objective metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve results comparable to current methods trained on full 40-hour recordings.
PDF144December 2, 2025