Meta-Lernen eines In-Context-Transformer-Modells des höheren visuellen Kortex des Menschen
Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex
May 21, 2025
Autoren: Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo
cs.AI
Zusammenfassung
Das Verständnis funktionaler Repräsentationen innerhalb des höheren visuellen Kortex ist eine grundlegende Frage in der Computational Neuroscience. Während künstliche neuronale Netze, die auf groß angelegten Datensätzen vortrainiert wurden, eine bemerkenswerte Übereinstimmung mit menschlichen neuronalen Reaktionen zeigen, basiert das Lernen von bildberechnungsfähigen Modellen des visuellen Kortex auf individuellen, groß angelegten fMRI-Datensätzen. Die Notwendigkeit teurer, zeitintensiver und oft unpraktischer Datenerfassung begrenzt die Generalisierbarkeit von Encodern auf neue Probanden und Reize. BraInCoRL nutzt In-Context-Lernen, um voxelweise neuronale Reaktionen aus wenigen Beispielen vorherzusagen, ohne zusätzliche Feinabstimmung für neue Probanden und Reize. Wir nutzen eine Transformer-Architektur, die flexibel auf eine variable Anzahl von In-Context-Bildreizen konditionieren kann und dabei eine induktive Verzerrung über mehrere Probanden hinweg lernt. Während des Trainings optimieren wir das Modell explizit für In-Context-Lernen. Durch gemeinsame Konditionierung auf Bildmerkmale und Voxelaktivierungen lernt unser Modell, direkt besser performende voxelweise Modelle des höheren visuellen Kortex zu generieren. Wir zeigen, dass BraInCoRL im Niedrigdatenbereich bei der Bewertung völlig neuer Bilder bestehende voxelweise Encoder-Designs konsequent übertrifft, während es gleichzeitig ein starkes Skalierungsverhalten zur Testzeit aufweist. Das Modell generalisiert auch auf einen völlig neuen visuellen fMRI-Datensatz, der unterschiedliche Probanden und fMRI-Datenerfassungsparameter verwendet. Darüber hinaus ermöglicht BraInCoRL eine bessere Interpretierbarkeit neuronaler Signale im höheren visuellen Kortex, indem es auf semantisch relevante Reize achtet. Schließlich zeigen wir, dass unser Framework interpretierbare Abbildungen von natürlichen Sprachabfragen auf Voxelselektivität ermöglicht.
English
Understanding functional representations within higher visual cortex is a
fundamental question in computational neuroscience. While artificial neural
networks pretrained on large-scale datasets exhibit striking representational
alignment with human neural responses, learning image-computable models of
visual cortex relies on individual-level, large-scale fMRI datasets. The
necessity for expensive, time-intensive, and often impractical data acquisition
limits the generalizability of encoders to new subjects and stimuli. BraInCoRL
uses in-context learning to predict voxelwise neural responses from few-shot
examples without any additional finetuning for novel subjects and stimuli. We
leverage a transformer architecture that can flexibly condition on a variable
number of in-context image stimuli, learning an inductive bias over multiple
subjects. During training, we explicitly optimize the model for in-context
learning. By jointly conditioning on image features and voxel activations, our
model learns to directly generate better performing voxelwise models of higher
visual cortex. We demonstrate that BraInCoRL consistently outperforms existing
voxelwise encoder designs in a low-data regime when evaluated on entirely novel
images, while also exhibiting strong test-time scaling behavior. The model also
generalizes to an entirely new visual fMRI dataset, which uses different
subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates
better interpretability of neural signals in higher visual cortex by attending
to semantically relevant stimuli. Finally, we show that our framework enables
interpretable mappings from natural language queries to voxel selectivity.Summary
AI-Generated Summary