Brain-IT : Reconstruction d'images à partir de l'IRMf via un transformeur à interaction cérébrale
Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
October 29, 2025
papers.authors: Roman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani
cs.AI
papers.abstract
La reconstruction d'images vues par des personnes à partir de leurs enregistrements cérébraux par IRMf offre une fenêtre non invasive sur le cerveau humain. Malgré les progrès récents permis par les modèles de diffusion, les méthodes actuelles manquent souvent de fidélité aux images réellement vues. Nous présentons "Brain-IT", une approche inspirée du cerveau qui relève ce défi grâce à un transformeur d'interaction cérébrale (BIT), permettant des interactions efficaces entre des groupes de voxels cérébraux fonctionnellement similaires. Ces groupes fonctionnels sont partagés par tous les sujets, servant de blocs de construction pour intégrer l'information à l'intérieur et entre les cerveaux. Tous les composants du modèle sont partagés par tous les groupes et sujets, permettant un entraînement efficace avec une quantité limitée de données. Pour guider la reconstruction d'image, BIT prédit deux caractéristiques d'image localisées au niveau des patchs, complémentaires : (i) des caractéristiques sémantiques de haut niveau qui orientent le modèle de diffusion vers le contenu sémantique correct de l'image ; et (ii) des caractéristiques structurelles de bas niveau qui aident à initialiser le processus de diffusion avec la disposition grossière correcte de l'image. La conception de BIT permet un flux direct d'informations des groupes de voxels cérébraux vers les caractéristiques d'image localisées. Grâce à ces principes, notre méthode atteint des reconstructions d'images à partir de l'IRMf qui reconstruisent fidèlement les images vues, et surpasse les approches actuelles de l'état de l'art à la fois visuellement et par les métriques objectives standard. De plus, avec seulement 1 heure de données d'IRMf d'un nouveau sujet, nous obtenons des résultats comparables aux méthodes actuelles entraînées sur des enregistrements complets de 40 heures.
English
Reconstructing images seen by people from their fMRI brain recordings
provides a non-invasive window into the human brain. Despite recent progress
enabled by diffusion models, current methods often lack faithfulness to the
actual seen images. We present "Brain-IT", a brain-inspired approach that
addresses this challenge through a Brain Interaction Transformer (BIT),
allowing effective interactions between clusters of functionally-similar
brain-voxels. These functional-clusters are shared by all subjects, serving as
building blocks for integrating information both within and across brains. All
model components are shared by all clusters & subjects, allowing efficient
training with a limited amount of data. To guide the image reconstruction, BIT
predicts two complementary localized patch-level image features: (i)high-level
semantic features which steer the diffusion model toward the correct semantic
content of the image; and (ii)low-level structural features which help to
initialize the diffusion process with the correct coarse layout of the image.
BIT's design enables direct flow of information from brain-voxel clusters to
localized image features. Through these principles, our method achieves image
reconstructions from fMRI that faithfully reconstruct the seen images, and
surpass current SotA approaches both visually and by standard objective
metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve
results comparable to current methods trained on full 40-hour recordings.