Meta-aprendizagem In-Context Permite Decodificação Cerebral Inter-sujeito Sem Treinamento

Resumo

A decodificação visual a partir de sinais cerebrais é um desafio fundamental na intersecção entre visão computacional e neurociência, exigindo métodos que conectem representações neurais e modelos computacionais de visão. Um objetivo amplo da área é alcançar modelos generalizáveis e transversais a diferentes indivíduos. Um obstáculo significativo para essa meta é a variabilidade substancial nas representações neurais entre indivíduos, que até agora exigiu o treinamento de modelos personalizados ou o ajuste fino separado para cada sujeito. Para enfrentar esse desafio, introduzimos uma abordagem meta-otimizada para decodificação visual semântica a partir de fMRI que generaliza para novos indivíduos sem qualquer ajuste fino. Simplesmente condicionando o modelo a um pequeno conjunto de exemplos de imagens e ativações cerebrais do novo indivíduo, nosso modelo infere rapidamente seus padrões únicos de codificação neural para facilitar uma decodificação visual robusta e eficiente. Nossa abordagem é explicitamente otimizada para aprendizado contextual do modelo de codificação do novo sujeito e realiza a decodificação por inferência hierárquica, invertendo o codificador. Primeiro, para múltiplas regiões cerebrais, estimamos os parâmetros do codificador de resposta visual por voxel construindo um contexto sobre múltiplos estímulos e respostas. Segundo, construímos um contexto consistindo em parâmetros do codificador e valores de resposta em múltiplos voxels para realizar uma inversão funcional agregada. Demonstramos forte generalização entre indivíduos e entre diferentes scanners de ressonância magnética através de diversos *backbones* visuais, sem retreinamento ou ajuste fino. Além disso, nossa abordagem não requer nem alinhamento anatômico nem sobreposição de estímulos. Este trabalho representa um passo crítico em direção a um modelo de base generalizável para decodificação cerebral não invasiva.

English

Visual decoding from brain signals is a key challenge at the intersection of computer vision and neuroscience, requiring methods that bridge neural representations and computational models of vision. A field-wide goal is to achieve generalizable, cross-subject models. A major obstacle towards this goal is the substantial variability in neural representations across individuals, which has so far required training bespoke models or fine-tuning separately for each subject. To address this challenge, we introduce a meta-optimized approach for semantic visual decoding from fMRI that generalizes to novel subjects without any fine-tuning. By simply conditioning on a small set of image-brain activation examples from the new individual, our model rapidly infers their unique neural encoding patterns to facilitate robust and efficient visual decoding. Our approach is explicitly optimized for in-context learning of the new subject's encoding model and performs decoding by hierarchical inference, inverting the encoder. First, for multiple brain regions, we estimate the per-voxel visual response encoder parameters by constructing a context over multiple stimuli and responses. Second, we construct a context consisting of encoder parameters and response values over multiple voxels to perform aggregated functional inversion. We demonstrate strong cross-subject and cross-scanner generalization across diverse visual backbones without retraining or fine-tuning. Moreover, our approach requires neither anatomical alignment nor stimulus overlap. This work is a critical step towards a generalizable foundation model for non-invasive brain decoding.

Meta-aprendizagem In-Context Permite Decodificação Cerebral Inter-sujeito Sem Treinamento

Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Resumo

Support