Brain-IT: Reconstrução de Imagens a partir de fMRI via Transformador de Interação Cerebral
Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
October 29, 2025
Autores: Roman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani
cs.AI
Resumo
A reconstrução de imagens visualizadas por pessoas a partir dos seus registos de fMRI cerebral fornece uma janela não invasiva para o cérebro humano. Apesar dos progressos recentes possibilitados pelos modelos de difusão, os métodos atuais frequentemente carecem de fidelidade às imagens realmente visualizadas. Apresentamos "Brain-IT", uma abordagem inspirada no cérebro que enfrenta este desafio através de um *Brain Interaction Transformer* (BIT), permitindo interações eficazes entre aglomerados de voxels cerebrais funcionalmente semelhantes. Estes aglomerados funcionais são partilhados por todos os sujeitos, servindo como blocos de construção para integrar informação tanto dentro como entre cérebros. Todos os componentes do modelo são partilhados por todos os aglomerados e sujeitos, permitindo um treino eficiente com uma quantidade limitada de dados. Para orientar a reconstrução da imagem, o BIT prevê duas características de imagem localizadas a nível de *patch*, complementares: (i) características semânticas de alto nível que direcionam o modelo de difusão para o conteúdo semântico correto da imagem; e (ii) características estruturais de baixo nível que ajudam a inicializar o processo de difusão com o *layout* grosseiro correto da imagem. O desenho do BIT permite o fluxo direto de informação dos aglomerados de voxels cerebrais para características de imagem localizadas. Através destes princípios, o nosso método alcança reconstruções de imagens a partir de fMRI que reconstroem fielmente as imagens visualizadas, e supera as abordagens atuais do estado da arte tanto visualmente como por métricas objetivas padrão. Além disso, com apenas 1 hora de dados de fMRI de um novo sujeito, alcançamos resultados comparáveis aos métodos atuais treinados com registos completos de 40 horas.
English
Reconstructing images seen by people from their fMRI brain recordings
provides a non-invasive window into the human brain. Despite recent progress
enabled by diffusion models, current methods often lack faithfulness to the
actual seen images. We present "Brain-IT", a brain-inspired approach that
addresses this challenge through a Brain Interaction Transformer (BIT),
allowing effective interactions between clusters of functionally-similar
brain-voxels. These functional-clusters are shared by all subjects, serving as
building blocks for integrating information both within and across brains. All
model components are shared by all clusters & subjects, allowing efficient
training with a limited amount of data. To guide the image reconstruction, BIT
predicts two complementary localized patch-level image features: (i)high-level
semantic features which steer the diffusion model toward the correct semantic
content of the image; and (ii)low-level structural features which help to
initialize the diffusion process with the correct coarse layout of the image.
BIT's design enables direct flow of information from brain-voxel clusters to
localized image features. Through these principles, our method achieves image
reconstructions from fMRI that faithfully reconstruct the seen images, and
surpass current SotA approaches both visually and by standard objective
metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve
results comparable to current methods trained on full 40-hour recordings.