Meta-apprendimento In-Context Abilita la Decodifica Cerebrale Inter-Soggetto Senza Addestramento

Abstract

La decodifica visiva dai segnali cerebrali è una sfida cruciale all'intersezione tra visione artificiale e neuroscienze, che richiede metodi in grado di collegare le rappresentazioni neurali con i modelli computazionali della visione. Un obiettivo condiviso dalla comunità scientifica è lo sviluppo di modelli generalizzabili tra diversi soggetti. Un ostacolo maggiore verso questo traguardo è la notevole variabilità delle rappresentazioni neurali tra gli individui, che finora ha reso necessario addestrare modelli personalizzati o effettuare una messa a punto separata per ogni soggetto. Per affrontare questa sfida, introduciamo un approccio basato su meta-ottimizzazione per la decodifica visiva semantica dalla fMRI che si generalizza a nuovi soggetti senza alcuna messa a punto. Semplicemente condizionando il modello su un piccolo insieme di esempi di attivazioni cerebrali associate a immagini del nuovo individuo, il nostro metodo inferisce rapidamente i suoi specifici pattern di codifica neurale per facilitare una decodifica visiva robusta ed efficiente. Il nostro approccio è esplicitamente ottimizzato per l'apprendimento in contesto del modello di codifica del nuovo soggetto ed esegue la decodifica mediante inferenza gerarchica, invertendo l'encoder. In primo luogo, per multiple regioni cerebrali, stimiamo i parametri dell'encoder della risposta visiva per singolo voxel costruendo un contesto su molteplici stimoli e risposte. In secondo luogo, costruiamo un contesto costituito da parametri dell'encoder e valori di risposta su più voxel per eseguire un'inversione funzionale aggregata. Dimostriamo una forte generalizzazione tra soggetti e tra scanner con diversi backbone visivi, senza necessità di riaddestramento o messa a punto. Inoltre, il nostro approccio non richiede né allineamento anatomico né sovrapposizione degli stimoli. Questo lavoro rappresenta un passo critico verso un modello fondante generalizzabile per la decodifica cerebrale non invasiva.

English

Visual decoding from brain signals is a key challenge at the intersection of computer vision and neuroscience, requiring methods that bridge neural representations and computational models of vision. A field-wide goal is to achieve generalizable, cross-subject models. A major obstacle towards this goal is the substantial variability in neural representations across individuals, which has so far required training bespoke models or fine-tuning separately for each subject. To address this challenge, we introduce a meta-optimized approach for semantic visual decoding from fMRI that generalizes to novel subjects without any fine-tuning. By simply conditioning on a small set of image-brain activation examples from the new individual, our model rapidly infers their unique neural encoding patterns to facilitate robust and efficient visual decoding. Our approach is explicitly optimized for in-context learning of the new subject's encoding model and performs decoding by hierarchical inference, inverting the encoder. First, for multiple brain regions, we estimate the per-voxel visual response encoder parameters by constructing a context over multiple stimuli and responses. Second, we construct a context consisting of encoder parameters and response values over multiple voxels to perform aggregated functional inversion. We demonstrate strong cross-subject and cross-scanner generalization across diverse visual backbones without retraining or fine-tuning. Moreover, our approach requires neither anatomical alignment nor stimulus overlap. This work is a critical step towards a generalizable foundation model for non-invasive brain decoding.

Meta-apprendimento In-Context Abilita la Decodifica Cerebrale Inter-Soggetto Senza Addestramento

Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Abstract

Support