Meta-Aprendizaje de un Modelo Transformer en Contexto de la Corteza Visual Superior Humana
Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex
May 21, 2025
Autores: Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo
cs.AI
Resumen
Comprender las representaciones funcionales dentro de la corteza visual superior es una pregunta fundamental en la neurociencia computacional. Si bien las redes neuronales artificiales preentrenadas en conjuntos de datos a gran escala exhiben una alineación representacional notable con las respuestas neuronales humanas, el aprendizaje de modelos computables de imágenes de la corteza visual depende de conjuntos de datos de resonancia magnética funcional (fMRI) a gran escala a nivel individual. La necesidad de una adquisición de datos costosa, que requiere mucho tiempo y, a menudo, poco práctica, limita la generalización de los codificadores a nuevos sujetos y estímulos. BraInCoRL utiliza el aprendizaje en contexto para predecir respuestas neuronales a nivel de vóxeles a partir de ejemplos de pocas muestras, sin necesidad de ajustes adicionales para sujetos y estímulos novedosos. Aprovechamos una arquitectura de transformadores que puede condicionarse de manera flexible a un número variable de estímulos de imágenes en contexto, aprendiendo un sesgo inductivo sobre múltiples sujetos. Durante el entrenamiento, optimizamos explícitamente el modelo para el aprendizaje en contexto. Al condicionar conjuntamente las características de las imágenes y las activaciones de los vóxeles, nuestro modelo aprende a generar directamente modelos de vóxeles de mejor rendimiento para la corteza visual superior. Demostramos que BraInCoRL supera consistentemente los diseños existentes de codificadores de vóxeles en un régimen de datos limitados cuando se evalúa con imágenes completamente nuevas, al mismo tiempo que exhibe un comportamiento de escalado sólido en el momento de la prueba. El modelo también se generaliza a un conjunto de datos de fMRI visual completamente nuevo, que utiliza diferentes sujetos y parámetros de adquisición de datos de fMRI. Además, BraInCoRL facilita una mejor interpretabilidad de las señales neuronales en la corteza visual superior al prestar atención a estímulos semánticamente relevantes. Finalmente, mostramos que nuestro marco permite mapeos interpretables desde consultas en lenguaje natural hasta la selectividad de los vóxeles.
English
Understanding functional representations within higher visual cortex is a
fundamental question in computational neuroscience. While artificial neural
networks pretrained on large-scale datasets exhibit striking representational
alignment with human neural responses, learning image-computable models of
visual cortex relies on individual-level, large-scale fMRI datasets. The
necessity for expensive, time-intensive, and often impractical data acquisition
limits the generalizability of encoders to new subjects and stimuli. BraInCoRL
uses in-context learning to predict voxelwise neural responses from few-shot
examples without any additional finetuning for novel subjects and stimuli. We
leverage a transformer architecture that can flexibly condition on a variable
number of in-context image stimuli, learning an inductive bias over multiple
subjects. During training, we explicitly optimize the model for in-context
learning. By jointly conditioning on image features and voxel activations, our
model learns to directly generate better performing voxelwise models of higher
visual cortex. We demonstrate that BraInCoRL consistently outperforms existing
voxelwise encoder designs in a low-data regime when evaluated on entirely novel
images, while also exhibiting strong test-time scaling behavior. The model also
generalizes to an entirely new visual fMRI dataset, which uses different
subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates
better interpretability of neural signals in higher visual cortex by attending
to semantically relevant stimuli. Finally, we show that our framework enables
interpretable mappings from natural language queries to voxel selectivity.