ChatPaper.aiChatPaper

Brain-IT: Reconstrucción de Imágenes a partir de fMRI mediante un Transformer de Interacción Cerebral

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

October 29, 2025
Autores: Roman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani
cs.AI

Resumen

La reconstrucción de imágenes vistas por personas a partir de sus registros cerebrales de resonancia magnética funcional (fMRI) proporciona una ventana no invasiva al cerebro humano. A pesar del progreso reciente habilitado por los modelos de difusión, los métodos actuales a menudo carecen de fidelidad a las imágenes vistas realmente. Presentamos "Brain-IT", un enfoque inspirado en el cerebro que aborda este desafío mediante un Transformer de Interacción Cerebral (BIT, por sus siglas en inglés), permitiendo interacciones efectivas entre grupos de vóxeles cerebrales funcionalmente similares. Estos grupos funcionales son compartidos por todos los sujetos, sirviendo como bloques de construcción para integrar información tanto dentro como entre cerebros. Todos los componentes del modelo son compartidos por todos los grupos y sujetos, permitiendo un entrenamiento eficiente con una cantidad limitada de datos. Para guiar la reconstrucción de la imagen, BIT predice dos características de imagen localizadas a nivel de parche que son complementarias: (i) características semánticas de alto nivel que dirigen el modelo de difusión hacia el contenido semántico correcto de la imagen; y (ii) características estructurales de bajo nivel que ayudan a inicializar el proceso de difusión con el diseño general correcto de la imagen. El diseño de BIT permite el flujo directo de información desde los grupos de vóxeles cerebrales hasta las características de imagen localizadas. A través de estos principios, nuestro método logra reconstrucciones de imágenes a partir de fMRI que reconstruyen fielmente las imágenes vistas, y supera a los enfoques actuales del estado del arte tanto visualmente como mediante métricas objetivas estándar. Además, con solo 1 hora de datos de fMRI de un nuevo sujeto, logramos resultados comparables a los métodos actuales entrenados con registros completos de 40 horas.
English
Reconstructing images seen by people from their fMRI brain recordings provides a non-invasive window into the human brain. Despite recent progress enabled by diffusion models, current methods often lack faithfulness to the actual seen images. We present "Brain-IT", a brain-inspired approach that addresses this challenge through a Brain Interaction Transformer (BIT), allowing effective interactions between clusters of functionally-similar brain-voxels. These functional-clusters are shared by all subjects, serving as building blocks for integrating information both within and across brains. All model components are shared by all clusters & subjects, allowing efficient training with a limited amount of data. To guide the image reconstruction, BIT predicts two complementary localized patch-level image features: (i)high-level semantic features which steer the diffusion model toward the correct semantic content of the image; and (ii)low-level structural features which help to initialize the diffusion process with the correct coarse layout of the image. BIT's design enables direct flow of information from brain-voxel clusters to localized image features. Through these principles, our method achieves image reconstructions from fMRI that faithfully reconstruct the seen images, and surpass current SotA approaches both visually and by standard objective metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve results comparable to current methods trained on full 40-hour recordings.
PDF144December 2, 2025