ChatPaper.aiChatPaper

Meta-Aprendizagem de um Modelo Transformer de Contexto Interno do Córtex Visual Superior Humano

Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex

May 21, 2025
Autores: Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo
cs.AI

Resumo

Compreender as representações funcionais no córtex visual superior é uma questão fundamental na neurociência computacional. Embora redes neurais artificiais pré-treinadas em grandes conjuntos de dados exibam um alinhamento representacional impressionante com as respostas neurais humanas, a aprendizagem de modelos computáveis de imagens do córtex visual depende de conjuntos de dados individuais em larga escala obtidos por fMRI. A necessidade de aquisição de dados cara, demorada e muitas vezes impraticável limita a generalização dos codificadores para novos sujeitos e estímulos. O BraInCoRL utiliza aprendizagem em contexto para prever respostas neurais voxel a voxel a partir de poucos exemplos, sem qualquer ajuste adicional para novos sujeitos e estímulos. Aproveitamos uma arquitetura transformer que pode se adaptar de forma flexível a um número variável de estímulos de imagem em contexto, aprendendo um viés indutivo sobre múltiplos sujeitos. Durante o treinamento, otimizamos explicitamente o modelo para aprendizagem em contexto. Ao condicionar conjuntamente em características de imagem e ativações voxel, nosso modelo aprende a gerar diretamente modelos voxel a voxel de melhor desempenho para o córtex visual superior. Demonstramos que o BraInCoRL supera consistentemente os projetos existentes de codificadores voxel a voxel em um regime de baixo volume de dados, quando avaliado em imagens completamente novas, ao mesmo tempo que exibe um forte comportamento de escalonamento no momento do teste. O modelo também generaliza para um novo conjunto de dados de fMRI visual, que utiliza diferentes sujeitos e parâmetros de aquisição de dados de fMRI. Além disso, o BraInCoRL facilita uma melhor interpretabilidade dos sinais neurais no córtex visual superior ao atentar para estímulos semanticamente relevantes. Por fim, mostramos que nossa estrutura permite mapeamentos interpretáveis de consultas em linguagem natural para seletividade voxel.
English
Understanding functional representations within higher visual cortex is a fundamental question in computational neuroscience. While artificial neural networks pretrained on large-scale datasets exhibit striking representational alignment with human neural responses, learning image-computable models of visual cortex relies on individual-level, large-scale fMRI datasets. The necessity for expensive, time-intensive, and often impractical data acquisition limits the generalizability of encoders to new subjects and stimuli. BraInCoRL uses in-context learning to predict voxelwise neural responses from few-shot examples without any additional finetuning for novel subjects and stimuli. We leverage a transformer architecture that can flexibly condition on a variable number of in-context image stimuli, learning an inductive bias over multiple subjects. During training, we explicitly optimize the model for in-context learning. By jointly conditioning on image features and voxel activations, our model learns to directly generate better performing voxelwise models of higher visual cortex. We demonstrate that BraInCoRL consistently outperforms existing voxelwise encoder designs in a low-data regime when evaluated on entirely novel images, while also exhibiting strong test-time scaling behavior. The model also generalizes to an entirely new visual fMRI dataset, which uses different subjects and fMRI data acquisition parameters. Further, BraInCoRL facilitates better interpretability of neural signals in higher visual cortex by attending to semantically relevant stimuli. Finally, we show that our framework enables interpretable mappings from natural language queries to voxel selectivity.
PDF52May 29, 2025