ChatPaper.aiChatPaper

Apprentissage par méta d'un modèle de transformeur en contexte du cortex visuel supérieur humain

Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex

May 21, 2025
Auteurs: Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo
cs.AI

Résumé

La compréhension des représentations fonctionnelles au sein du cortex visuel supérieur constitue une question fondamentale en neurosciences computationnelles. Bien que les réseaux de neurones artificiels pré-entraînés sur des ensembles de données à grande échelle présentent un alignement remarquable avec les réponses neuronales humaines, l'apprentissage de modèles calculables d'images du cortex visuel repose sur des ensembles de données IRMf individuels à grande échelle. La nécessité d'une acquisition de données coûteuse, chronophage et souvent peu pratique limite la généralisabilité des encodeurs à de nouveaux sujets et stimuli. BraInCoRL utilise l'apprentissage en contexte pour prédire les réponses neuronales voxel par voxel à partir de quelques exemples, sans nécessiter de réglage supplémentaire pour de nouveaux sujets et stimuli. Nous exploitons une architecture de transformateur capable de s'adapter de manière flexible à un nombre variable de stimuli visuels en contexte, apprenant un biais inductif sur plusieurs sujets. Pendant l'entraînement, nous optimisons explicitement le modèle pour l'apprentissage en contexte. En conditionnant conjointement sur les caractéristiques des images et les activations voxel, notre modèle apprend à générer directement des modèles voxel par voxel plus performants du cortex visuel supérieur. Nous démontrons que BraInCoRL surpasse systématiquement les conceptions existantes d'encodeurs voxel par voxel dans un régime de faible quantité de données lorsqu'il est évalué sur des images entièrement nouvelles, tout en présentant un comportement de mise à l'échelle robuste au moment du test. Le modèle généralise également à un nouvel ensemble de données IRMf visuelles, utilisant des sujets différents et des paramètres d'acquisition de données IRMf distincts. De plus, BraInCoRL facilite une meilleure interprétabilité des signaux neuronaux dans le cortex visuel supérieur en se concentrant sur des stimuli sémantiquement pertinents. Enfin, nous montrons que notre cadre permet des correspondances interprétables entre des requêtes en langage naturel et la sélectivité voxel.
English
Understanding functional representations within higher visual cortex is a fundamental question in computational neuroscience. While artificial neural networks pretrained on large-scale datasets exhibit striking representational alignment with human neural responses, learning image-computable models of visual cortex relies on individual-level, large-scale fMRI datasets. The necessity for expensive, time-intensive, and often impractical data acquisition limits the generalizability of encoders to new subjects and stimuli. BraInCoRL uses in-context learning to predict voxelwise neural responses from few-shot examples without any additional finetuning for novel subjects and stimuli. We leverage a transformer architecture that can flexibly condition on a variable number of in-context image stimuli, learning an inductive bias over multiple subjects. During training, we explicitly optimize the model for in-context learning. By jointly conditioning on image features and voxel activations, our model learns to directly generate better performing voxelwise models of higher visual cortex. We demonstrate that BraInCoRL consistently outperforms existing voxelwise encoder designs in a low-data regime when evaluated on entirely novel images, while also exhibiting strong test-time scaling behavior. The model also generalizes to an entirely new visual fMRI dataset, which uses different subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates better interpretability of neural signals in higher visual cortex by attending to semantically relevant stimuli. Finally, we show that our framework enables interpretable mappings from natural language queries to voxel selectivity.

Summary

AI-Generated Summary

PDF32May 29, 2025