Brain-IT: Reconstrução de Imagens a partir de fMRI via Transformador de Interação Cerebral

Resumo

A reconstrução de imagens visualizadas por pessoas a partir dos seus registos de fMRI cerebral fornece uma janela não invasiva para o cérebro humano. Apesar dos progressos recentes possibilitados pelos modelos de difusão, os métodos atuais frequentemente carecem de fidelidade às imagens realmente visualizadas. Apresentamos "Brain-IT", uma abordagem inspirada no cérebro que enfrenta este desafio através de um *Brain Interaction Transformer* (BIT), permitindo interações eficazes entre aglomerados de voxels cerebrais funcionalmente semelhantes. Estes aglomerados funcionais são partilhados por todos os sujeitos, servindo como blocos de construção para integrar informação tanto dentro como entre cérebros. Todos os componentes do modelo são partilhados por todos os aglomerados e sujeitos, permitindo um treino eficiente com uma quantidade limitada de dados. Para orientar a reconstrução da imagem, o BIT prevê duas características de imagem localizadas a nível de *patch*, complementares: (i) características semânticas de alto nível que direcionam o modelo de difusão para o conteúdo semântico correto da imagem; e (ii) características estruturais de baixo nível que ajudam a inicializar o processo de difusão com o *layout* grosseiro correto da imagem. O desenho do BIT permite o fluxo direto de informação dos aglomerados de voxels cerebrais para características de imagem localizadas. Através destes princípios, o nosso método alcança reconstruções de imagens a partir de fMRI que reconstroem fielmente as imagens visualizadas, e supera as abordagens atuais do estado da arte tanto visualmente como por métricas objetivas padrão. Além disso, com apenas 1 hora de dados de fMRI de um novo sujeito, alcançamos resultados comparáveis aos métodos atuais treinados com registos completos de 40 horas.

English

Reconstructing images seen by people from their fMRI brain recordings provides a non-invasive window into the human brain. Despite recent progress enabled by diffusion models, current methods often lack faithfulness to the actual seen images. We present "Brain-IT", a brain-inspired approach that addresses this challenge through a Brain Interaction Transformer (BIT), allowing effective interactions between clusters of functionally-similar brain-voxels. These functional-clusters are shared by all subjects, serving as building blocks for integrating information both within and across brains. All model components are shared by all clusters & subjects, allowing efficient training with a limited amount of data. To guide the image reconstruction, BIT predicts two complementary localized patch-level image features: (i)high-level semantic features which steer the diffusion model toward the correct semantic content of the image; and (ii)low-level structural features which help to initialize the diffusion process with the correct coarse layout of the image. BIT's design enables direct flow of information from brain-voxel clusters to localized image features. Through these principles, our method achieves image reconstructions from fMRI that faithfully reconstruct the seen images, and surpass current SotA approaches both visually and by standard objective metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve results comparable to current methods trained on full 40-hour recordings.

Brain-IT: Reconstrução de Imagens a partir de fMRI via Transformador de Interação Cerebral

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Resumo

Support