Meta-aprendizagem In-Context Permite Decodificação Cerebral Inter-sujeito Sem Treinamento
Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding
April 9, 2026
Autores: Mu Nan, Muquan Yu, Weijian Mai, Jacob S. Prince, Hossein Adeli, Rui Zhang, Jiahang Cao, Benjamin Becker, John A. Pyles, Margaret M. Henderson, Chunfeng Song, Nikolaus Kriegeskorte, Michael J. Tarr, Xiaoqing Hu, Andrew F. Luo
cs.AI
Resumo
A decodificação visual a partir de sinais cerebrais é um desafio fundamental na intersecção entre visão computacional e neurociência, exigindo métodos que conectem representações neurais e modelos computacionais de visão. Um objetivo amplo da área é alcançar modelos generalizáveis e transversais a diferentes indivíduos. Um obstáculo significativo para essa meta é a variabilidade substancial nas representações neurais entre indivíduos, que até agora exigiu o treinamento de modelos personalizados ou o ajuste fino separado para cada sujeito.
Para enfrentar esse desafio, introduzimos uma abordagem meta-otimizada para decodificação visual semântica a partir de fMRI que generaliza para novos indivíduos sem qualquer ajuste fino. Simplesmente condicionando o modelo a um pequeno conjunto de exemplos de imagens e ativações cerebrais do novo indivíduo, nosso modelo infere rapidamente seus padrões únicos de codificação neural para facilitar uma decodificação visual robusta e eficiente.
Nossa abordagem é explicitamente otimizada para aprendizado contextual do modelo de codificação do novo sujeito e realiza a decodificação por inferência hierárquica, invertendo o codificador. Primeiro, para múltiplas regiões cerebrais, estimamos os parâmetros do codificador de resposta visual por voxel construindo um contexto sobre múltiplos estímulos e respostas. Segundo, construímos um contexto consistindo em parâmetros do codificador e valores de resposta em múltiplos voxels para realizar uma inversão funcional agregada.
Demonstramos forte generalização entre indivíduos e entre diferentes scanners de ressonância magnética através de diversos *backbones* visuais, sem retreinamento ou ajuste fino. Além disso, nossa abordagem não requer nem alinhamento anatômico nem sobreposição de estímulos. Este trabalho representa um passo crítico em direção a um modelo de base generalizável para decodificação cerebral não invasiva.
English
Visual decoding from brain signals is a key challenge at the intersection of computer vision and neuroscience, requiring methods that bridge neural representations and computational models of vision. A field-wide goal is to achieve generalizable, cross-subject models. A major obstacle towards this goal is the substantial variability in neural representations across individuals, which has so far required training bespoke models or fine-tuning separately for each subject. To address this challenge, we introduce a meta-optimized approach for semantic visual decoding from fMRI that generalizes to novel subjects without any fine-tuning. By simply conditioning on a small set of image-brain activation examples from the new individual, our model rapidly infers their unique neural encoding patterns to facilitate robust and efficient visual decoding. Our approach is explicitly optimized for in-context learning of the new subject's encoding model and performs decoding by hierarchical inference, inverting the encoder. First, for multiple brain regions, we estimate the per-voxel visual response encoder parameters by constructing a context over multiple stimuli and responses. Second, we construct a context consisting of encoder parameters and response values over multiple voxels to perform aggregated functional inversion. We demonstrate strong cross-subject and cross-scanner generalization across diverse visual backbones without retraining or fine-tuning. Moreover, our approach requires neither anatomical alignment nor stimulus overlap. This work is a critical step towards a generalizable foundation model for non-invasive brain decoding.