Brain-IT: Beeldreconstructie van fMRI via een Brain-Interaction Transformer
Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
October 29, 2025
Auteurs: Roman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani
cs.AI
Samenvatting
Het reconstrueren van beelden die mensen zien op basis van hun fMRI-hersenmetingen biedt een niet-invasieve kijk in het menselijk brein. Ondanks recente vooruitgang mogelijk gemaakt door diffusiemodellen, ontbreekt het huidige methoden vaak aan getrouwheid aan de daadwerkelijk waargenomen beelden. Wij presenteren "Brain-IT", een breingeïnspireerde aanpak die deze uitdaging aanpakt met een Brain Interaction Transformer (BIT). Deze maakt effectieve interacties mogelijk tussen clusters van functioneel vergelijkbare hersengebieden (voxels). Deze functionele clusters zijn gedeeld door alle proefpersonen en dienen als bouwstenen voor het integreren van informatie binnen en tussen hersenen. Alle modelcomponenten worden gedeeld door alle clusters en proefpersonen, wat efficiënte training met een beperkte hoeveelheid data mogelijk maakt. Om de beeldreconstructie te sturen, voorspelt BIT twee complementaire gelokaliseerde patch-level beeldkenmerken: (i) hoogwaardige semantieke kenmerken die het diffusiemodel sturen naar de correcte semantieke inhoud van het beeld; en (ii) laagwaardige structurele kenmerken die helpen het diffusieproces te initialiseren met de correcte grove lay-out van het beeld. Het ontwerp van BIT maakt een directe informatiestroom mogelijk van hersengebiedclusters naar gelokaliseerde beeldkenmerken. Door deze principes bereikt onze methode beeldreconstructies vanuit fMRI die de waargenomen beelden getrouw reconstrueren, en overtreft zij de huidige state-of-the-art methoden zowel visueel als volgens standaard objectieve metrieken. Bovendien bereiken we met slechts 1 uur fMRI-data van een nieuwe proefpersoon resultaten die vergelijkbaar zijn met huidige methoden die getraind zijn op volledige 40-uurs opnames.
English
Reconstructing images seen by people from their fMRI brain recordings
provides a non-invasive window into the human brain. Despite recent progress
enabled by diffusion models, current methods often lack faithfulness to the
actual seen images. We present "Brain-IT", a brain-inspired approach that
addresses this challenge through a Brain Interaction Transformer (BIT),
allowing effective interactions between clusters of functionally-similar
brain-voxels. These functional-clusters are shared by all subjects, serving as
building blocks for integrating information both within and across brains. All
model components are shared by all clusters & subjects, allowing efficient
training with a limited amount of data. To guide the image reconstruction, BIT
predicts two complementary localized patch-level image features: (i)high-level
semantic features which steer the diffusion model toward the correct semantic
content of the image; and (ii)low-level structural features which help to
initialize the diffusion process with the correct coarse layout of the image.
BIT's design enables direct flow of information from brain-voxel clusters to
localized image features. Through these principles, our method achieves image
reconstructions from fMRI that faithfully reconstruct the seen images, and
surpass current SotA approaches both visually and by standard objective
metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve
results comparable to current methods trained on full 40-hour recordings.