Метаобучение трансформерной модели in-context для высших зрительных областей коры головного мозга человека
Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex
May 21, 2025
Авторы: Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo
cs.AI
Аннотация
Понимание функциональных представлений в высших зрительных областях коры головного мозга является фундаментальным вопросом в вычислительной нейронауке. Хотя искусственные нейронные сети, предобученные на крупномасштабных наборах данных, демонстрируют поразительное соответствие репрезентаций с нейронными реакциями человека, обучение вычислительных моделей зрительной коры требует индивидуальных, крупномасштабных наборов данных фМРТ. Необходимость в дорогостоящем, трудоемком и зачастую непрактичном сборе данных ограничивает обобщаемость кодировщиков на новых субъектов и стимулы. BraInCoRL использует обучение в контексте для предсказания воксельных нейронных реакций на основе нескольких примеров без дополнительной дообучки для новых субъектов и стимулов. Мы применяем архитектуру трансформера, которая может гибко учитывать переменное количество контекстных зрительных стимулов, обучаясь индуктивному смещению на множестве субъектов. Во время обучения мы явно оптимизируем модель для обучения в контексте. Совместно учитывая признаки изображений и активации вокселей, наша модель учится непосредственно генерировать более эффективные воксельные модели высших зрительных областей коры. Мы показываем, что BraInCoRL стабильно превосходит существующие конструкции воксельных кодировщиков в условиях ограниченных данных при оценке на совершенно новых изображениях, а также демонстрирует сильное поведение масштабирования во время тестирования. Модель также обобщается на совершенно новый набор данных зрительной фМРТ, использующий разных субъектов и параметры сбора данных фМРТ. Кроме того, BraInCoRL способствует лучшей интерпретируемости нейронных сигналов в высших зрительных областях коры, обращая внимание на семантически значимые стимулы. Наконец, мы показываем, что наш фреймворк позволяет создавать интерпретируемые отображения из запросов на естественном языке в селективность вокселей.
English
Understanding functional representations within higher visual cortex is a
fundamental question in computational neuroscience. While artificial neural
networks pretrained on large-scale datasets exhibit striking representational
alignment with human neural responses, learning image-computable models of
visual cortex relies on individual-level, large-scale fMRI datasets. The
necessity for expensive, time-intensive, and often impractical data acquisition
limits the generalizability of encoders to new subjects and stimuli. BraInCoRL
uses in-context learning to predict voxelwise neural responses from few-shot
examples without any additional finetuning for novel subjects and stimuli. We
leverage a transformer architecture that can flexibly condition on a variable
number of in-context image stimuli, learning an inductive bias over multiple
subjects. During training, we explicitly optimize the model for in-context
learning. By jointly conditioning on image features and voxel activations, our
model learns to directly generate better performing voxelwise models of higher
visual cortex. We demonstrate that BraInCoRL consistently outperforms existing
voxelwise encoder designs in a low-data regime when evaluated on entirely novel
images, while also exhibiting strong test-time scaling behavior. The model also
generalizes to an entirely new visual fMRI dataset, which uses different
subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates
better interpretability of neural signals in higher visual cortex by attending
to semantically relevant stimuli. Finally, we show that our framework enables
interpretable mappings from natural language queries to voxel selectivity.Summary
AI-Generated Summary