Brain-IT: Bildrekonstruktion aus fMRT-Daten mittels Brain-Interaction Transformer
Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
October 29, 2025
papers.authors: Roman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani
cs.AI
papers.abstract
Die Rekonstruktion von Bildern, die Menschen sehen, aus ihren fMRT-Hirnaufzeichnungen bietet ein nicht-invasives Fenster ins menschliche Gehirn. Trotz jüngster Fortschritte durch Diffusionsmodelle mangelt es aktuellen Methoden oft an Treue zu den tatsächlich gesehenen Bildern. Wir stellen "Brain-IT" vor, einen hirninspirierten Ansatz, der diese Herausforderung durch einen Brain Interaction Transformer (BIT) adressiert. Dieser ermöglicht effektive Interaktionen zwischen Clustern funktionell ähnlicher Hirnvoxel. Diese funktionellen Cluster sind für alle Versuchspersonen gleich und dienen als Bausteine zur Integration von Informationen innerhalb und zwischen Gehirnen. Alle Modellkomponenten werden von allen Clustern und Probanden gemeinsam genutzt, was ein effizientes Training auch mit begrenzten Datenmengen erlaubt. Um die Bildrekonstruktion zu steuern, sagt BIT zwei komplementäre, lokalisierte patch-basierte Bildmerkmale vorher: (i) hochlevelige semantische Merkmale, die das Diffusionsmodell zum korrekten semantischen Inhalt des Bildes lenken; und (ii) low-level strukturelle Merkmale, die den Diffusionsprozess mit der korrekten groben Bildanordnung initialisieren. BITs Design ermöglicht einen direkten Informationsfluss von Hirnvoxel-Clustern zu lokalen Bildmerkmalen. Durch diese Prinzipien erreicht unsere Methode Bildrekonstruktionen aus fMRT-Daten, die die gesehenen Bilder originalgetreu rekonstruieren und aktuelle State-of-the-Art-Ansätze sowohl visuell als auch mittels standardisierter objektiver Metriken übertreffen. Darüber hinaus erzielen wir mit nur einstündigen fMRT-Daten eines neuen Probanden Ergebnisse, die mit aktuellen Methoden vergleichbar sind, die mit vollständigen 40-Stunden-Aufzeichnungen trainiert wurden.
English
Reconstructing images seen by people from their fMRI brain recordings
provides a non-invasive window into the human brain. Despite recent progress
enabled by diffusion models, current methods often lack faithfulness to the
actual seen images. We present "Brain-IT", a brain-inspired approach that
addresses this challenge through a Brain Interaction Transformer (BIT),
allowing effective interactions between clusters of functionally-similar
brain-voxels. These functional-clusters are shared by all subjects, serving as
building blocks for integrating information both within and across brains. All
model components are shared by all clusters & subjects, allowing efficient
training with a limited amount of data. To guide the image reconstruction, BIT
predicts two complementary localized patch-level image features: (i)high-level
semantic features which steer the diffusion model toward the correct semantic
content of the image; and (ii)low-level structural features which help to
initialize the diffusion process with the correct coarse layout of the image.
BIT's design enables direct flow of information from brain-voxel clusters to
localized image features. Through these principles, our method achieves image
reconstructions from fMRI that faithfully reconstruct the seen images, and
surpass current SotA approaches both visually and by standard objective
metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve
results comparable to current methods trained on full 40-hour recordings.