Brain-IT: Реконструкция изображений по данным фМРТ с помощью Transformer-архитектуры, моделирующей взаимодействие в мозге
Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
October 29, 2025
Авторы: Roman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani
cs.AI
Аннотация
Восстановление изображений, видимых людьми, по данным фМРТ-записей активности их мозга предоставляет неинвазивное окно в человеческий мозг. Несмотря на недавний прогресс, достигнутый благодаря диффузионным моделям, современные методы часто недостаточно точно воспроизводят реально видимые изображения. Мы представляем подход «Brain-IT», вдохновленный принципами работы мозга, который решает эту проблему с помощью трансформера для взаимодействия в мозге (Brain Interaction Transformer, BIT), обеспечивающего эффективное взаимодействие между кластерами функционально схожих вокселов мозга. Эти функциональные кластеры являются общими для всех испытуемых и служат строительными блоками для интеграции информации как внутри одного мозга, так и между разными мозгами. Все компоненты модели являются общими для всех кластеров и испытуемых, что позволяет эффективно обучать модель на ограниченном объеме данных. Для управления восстановлением изображения BIT предсказывает два взаимодополняющих локализованных признака изображения на уровне патчей: (i) высокоуровневые семантические признаки, которые направляют диффузионную модель к правильному семантическому содержанию изображения; и (ii) низкоуровневые структурные признаки, которые помогают инициализировать диффузионный процесс с правильной грубой структурой изображения. Конструкция BIT обеспечивает прямой поток информации от кластеров вокселов мозга к локализованным признакам изображения. Благодаря этим принципам наш метод достигает восстановления изображений из данных фМРТ, которые точно воспроизводят видимые изображения и превосходят современные state-of-the-art подходы как визуально, так и по стандартным объективным метрикам. Более того, используя всего 1 час данных фМРТ от нового испытуемого, мы достигаем результатов, сопоставимых с современными методами, обученными на полных 40-часовых записях.
English
Reconstructing images seen by people from their fMRI brain recordings
provides a non-invasive window into the human brain. Despite recent progress
enabled by diffusion models, current methods often lack faithfulness to the
actual seen images. We present "Brain-IT", a brain-inspired approach that
addresses this challenge through a Brain Interaction Transformer (BIT),
allowing effective interactions between clusters of functionally-similar
brain-voxels. These functional-clusters are shared by all subjects, serving as
building blocks for integrating information both within and across brains. All
model components are shared by all clusters & subjects, allowing efficient
training with a limited amount of data. To guide the image reconstruction, BIT
predicts two complementary localized patch-level image features: (i)high-level
semantic features which steer the diffusion model toward the correct semantic
content of the image; and (ii)low-level structural features which help to
initialize the diffusion process with the correct coarse layout of the image.
BIT's design enables direct flow of information from brain-voxel clusters to
localized image features. Through these principles, our method achieves image
reconstructions from fMRI that faithfully reconstruct the seen images, and
surpass current SotA approaches both visually and by standard objective
metrics. Moreover, with only 1-hour of fMRI data from a new subject, we achieve
results comparable to current methods trained on full 40-hour recordings.