Meta-Leren van een In-Context Transformer Model van het Hogere Visuele Cortex bij Mensen
Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex
May 21, 2025
Auteurs: Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo
cs.AI
Samenvatting
Het begrijpen van functionele representaties binnen de hogere visuele cortex is een fundamentele vraag in de computationele neurowetenschappen. Hoewel kunstmatige neurale netwerken die vooraf zijn getraind op grootschalige datasets opvallende representatie-overeenkomsten vertonen met menselijke neurale reacties, is het leren van beeldberekenbare modellen van de visuele cortex afhankelijk van individuele, grootschalige fMRI-datasets. De noodzaak van dure, tijdrovende en vaak onpraktische data-acquisitie beperkt de generaliseerbaarheid van encoders naar nieuwe proefpersonen en stimuli. BraInCoRL maakt gebruik van in-context leren om voxelgewijze neurale reacties te voorspellen op basis van few-shot voorbeelden, zonder aanvullende finetuning voor nieuwe proefpersonen en stimuli. We benutten een transformer-architectuur die flexibel kan conditioneren op een variabel aantal in-context beeldstimuli, waarbij een inductieve bias wordt geleerd over meerdere proefpersonen. Tijdens de training optimaliseren we het model expliciet voor in-context leren. Door gezamenlijk te conditioneren op beeldkenmerken en voxelactivaties, leert ons model direct beter presterende voxelgewijze modellen van de hogere visuele cortex te genereren. We tonen aan dat BraInCoRL consistent beter presteert dan bestaande voxelgewijze encoder-ontwerpen in een regime met weinig data, wanneer geëvalueerd op volledig nieuwe beelden, terwijl het ook sterk schaalgedrag vertoont tijdens de testfase. Het model generaliseert ook naar een volledig nieuwe visuele fMRI-dataset, die verschillende proefpersonen en fMRI-data-acquisitieparameters gebruikt. Bovendien vergemakkelijkt BraInCoRL een betere interpreteerbaarheid van neurale signalen in de hogere visuele cortex door aandacht te besteden aan semantisch relevante stimuli. Tot slot laten we zien dat ons framework interpreteerbare mappingen mogelijk maakt van natuurlijke taalvragen naar voxelselectiviteit.
English
Understanding functional representations within higher visual cortex is a
fundamental question in computational neuroscience. While artificial neural
networks pretrained on large-scale datasets exhibit striking representational
alignment with human neural responses, learning image-computable models of
visual cortex relies on individual-level, large-scale fMRI datasets. The
necessity for expensive, time-intensive, and often impractical data acquisition
limits the generalizability of encoders to new subjects and stimuli. BraInCoRL
uses in-context learning to predict voxelwise neural responses from few-shot
examples without any additional finetuning for novel subjects and stimuli. We
leverage a transformer architecture that can flexibly condition on a variable
number of in-context image stimuli, learning an inductive bias over multiple
subjects. During training, we explicitly optimize the model for in-context
learning. By jointly conditioning on image features and voxel activations, our
model learns to directly generate better performing voxelwise models of higher
visual cortex. We demonstrate that BraInCoRL consistently outperforms existing
voxelwise encoder designs in a low-data regime when evaluated on entirely novel
images, while also exhibiting strong test-time scaling behavior. The model also
generalizes to an entirely new visual fMRI dataset, which uses different
subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates
better interpretability of neural signals in higher visual cortex by attending
to semantically relevant stimuli. Finally, we show that our framework enables
interpretable mappings from natural language queries to voxel selectivity.