Meta-Apprendimento di un Modello Transformer In-Context della Corteccia Visiva Superiore Umana
Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex
May 21, 2025
Autori: Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo
cs.AI
Abstract
Comprendere le rappresentazioni funzionali all'interno della corteccia visiva superiore è una questione fondamentale nelle neuroscienze computazionali. Sebbene le reti neurali artificiali pre-addestrate su dataset su larga scala mostrino un allineamento rappresentativo sorprendente con le risposte neurali umane, l'apprendimento di modelli computazionali dell'immagine della corteccia visiva si basa su dataset fMRI su larga scala a livello individuale. La necessità di acquisizione di dati costosa, dispendiosa in termini di tempo e spesso impraticabile limita la generalizzabilità degli encoder a nuovi soggetti e stimoli. BraInCoRL utilizza l'apprendimento in contesto per prevedere le risposte neurali a livello di voxel da esempi few-shot senza alcuna ulteriore messa a punto per nuovi soggetti e stimoli. Sfruttiamo un'architettura transformer che può condizionarsi flessibilmente su un numero variabile di stimoli immagine in contesto, apprendendo un bias induttivo su più soggetti. Durante l'addestramento, ottimizziamo esplicitamente il modello per l'apprendimento in contesto. Condizionando congiuntamente sulle caratteristiche dell'immagine e sulle attivazioni dei voxel, il nostro modello impara a generare direttamente modelli voxelwise più performanti della corteccia visiva superiore. Dimostriamo che BraInCoRL supera costantemente i progetti esistenti di encoder voxelwise in un regime di bassi dati quando valutato su immagini completamente nuove, mostrando anche un forte comportamento di scalabilità al momento del test. Il modello si generalizza inoltre a un nuovo dataset fMRI visivo, che utilizza soggetti diversi e parametri di acquisizione dati fMRI differenti. Inoltre, BraInCoRL facilita una migliore interpretabilità dei segnali neurali nella corteccia visiva superiore prestando attenzione agli stimoli semanticamente rilevanti. Infine, mostriamo che il nostro framework consente mappature interpretabili da query in linguaggio naturale alla selettività dei voxel.
English
Understanding functional representations within higher visual cortex is a
fundamental question in computational neuroscience. While artificial neural
networks pretrained on large-scale datasets exhibit striking representational
alignment with human neural responses, learning image-computable models of
visual cortex relies on individual-level, large-scale fMRI datasets. The
necessity for expensive, time-intensive, and often impractical data acquisition
limits the generalizability of encoders to new subjects and stimuli. BraInCoRL
uses in-context learning to predict voxelwise neural responses from few-shot
examples without any additional finetuning for novel subjects and stimuli. We
leverage a transformer architecture that can flexibly condition on a variable
number of in-context image stimuli, learning an inductive bias over multiple
subjects. During training, we explicitly optimize the model for in-context
learning. By jointly conditioning on image features and voxel activations, our
model learns to directly generate better performing voxelwise models of higher
visual cortex. We demonstrate that BraInCoRL consistently outperforms existing
voxelwise encoder designs in a low-data regime when evaluated on entirely novel
images, while also exhibiting strong test-time scaling behavior. The model also
generalizes to an entirely new visual fMRI dataset, which uses different
subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates
better interpretability of neural signals in higher visual cortex by attending
to semantically relevant stimuli. Finally, we show that our framework enables
interpretable mappings from natural language queries to voxel selectivity.