Метаобучение в контексте позволяет осуществлять декодирование мозговой активности между субъектами без дополнительного обучения

Аннотация

Визуальное декодирование сигналов мозга — ключевая задача на стыке компьютерного зрения и нейронауки, требующая методов, связывающих нейронные репрезентации с вычислительными моделями зрения. Общеотраслевой целью является создание обобщаемых моделей, применимых к разным субъектам. Главным препятствием на этом пути служит значительная вариабельность нейронных репрезентаций между индивидами, что до сих пор требовало обучения специализированных моделей или раздельного дообучения для каждого испытуемого. Для решения этой проблемы мы предлагаем мета-оптимизированный подход к семантическому визуальному декодированию фМРТ, который обобщается на новых субъектов без какого-либо дообучения. Просто conditioning на небольшом наборе примеров "изображение-активация мозга" нового индивида позволяет нашей модели быстро выводить его уникальные паттерны нейронного кодирования для обеспечения надежного и эффективного визуального декодирования. Наш подход явно оптимизирован для in-context обучения модели кодирования нового субъекта и выполняет декодирование через иерархический вывод, инвертируя энкодер. Сначала для нескольких областей мозга мы оцениваем параметры энкодера визуального отклика для каждого вокселя, конструируя контекст по множеству стимулов и ответов. Затем мы строим контекст, состоящий из параметров энкодера и значений отклика по множеству вокселей, для выполнения агрегированной функциональной инверсии. Мы демонстрируем сильное обобщение между субъектами и сканерами для различных визуальных архитектур без переобучения или дообучения. Более того, наш подход не требует ни анатомического выравнивания, ни перекрытия стимулов. Данная работа представляет собой важный шаг к созданию обобщаемой фундаментальной модели для неинвазивного декодирования мозга.

English

Visual decoding from brain signals is a key challenge at the intersection of computer vision and neuroscience, requiring methods that bridge neural representations and computational models of vision. A field-wide goal is to achieve generalizable, cross-subject models. A major obstacle towards this goal is the substantial variability in neural representations across individuals, which has so far required training bespoke models or fine-tuning separately for each subject. To address this challenge, we introduce a meta-optimized approach for semantic visual decoding from fMRI that generalizes to novel subjects without any fine-tuning. By simply conditioning on a small set of image-brain activation examples from the new individual, our model rapidly infers their unique neural encoding patterns to facilitate robust and efficient visual decoding. Our approach is explicitly optimized for in-context learning of the new subject's encoding model and performs decoding by hierarchical inference, inverting the encoder. First, for multiple brain regions, we estimate the per-voxel visual response encoder parameters by constructing a context over multiple stimuli and responses. Second, we construct a context consisting of encoder parameters and response values over multiple voxels to perform aggregated functional inversion. We demonstrate strong cross-subject and cross-scanner generalization across diverse visual backbones without retraining or fine-tuning. Moreover, our approach requires neither anatomical alignment nor stimulus overlap. This work is a critical step towards a generalizable foundation model for non-invasive brain decoding.

Метаобучение в контексте позволяет осуществлять декодирование мозговой активности между субъектами без дополнительного обучения

Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Аннотация

Support