Le métac-apprentissage en contexte permet le décodage cérébral inter-sujet sans entraînement

Résumé

Le décodage visuel à partir des signaux cérébraux constitue un défi majeur à l'intersection de la vision par ordinateur et des neurosciences, nécessitant des méthodes capables de faire le lien entre les représentations neurales et les modèles computationnels de la vision. Un objectif commun à ce domaine est de développer des modèles généralisables entre différents sujets. Un obstacle majeur à cet objectif réside dans la variabilité substantielle des représentations neurales entre les individus, ce qui a jusqu'à présent requis l'entraînement de modèles spécifiques ou un réglage fin séparé pour chaque sujet. Pour relever ce défi, nous proposons une approche méta-optimisée pour le décodage visuel sémantique à partir de l'IRMf qui se généralise à de nouveaux sujets sans aucun réglage fin. En se contentant de conditionner le modèle sur un petit ensemble d'exemples d'activation image-cerveau provenant du nouvel individu, notre méthode infère rapidement ses schémas uniques d'encodage neural pour faciliter un décodage visuel robuste et efficace. Notre approche est explicitement optimisée pour l'apprentissage en contexte du modèle d'encodage du nouveau sujet et effectue le décodage par inférence hiérarchique, en inversant l'encodeur. Premièrement, pour plusieurs régions cérébrales, nous estimons les paramètres de l'encodeur de réponse visuelle par voxel en construisant un contexte sur plusieurs stimuli et réponses. Deuxièmement, nous construisons un contexte composé de paramètres d'encodeur et de valeurs de réponse sur plusieurs voxels pour effectuer une inversion fonctionnelle agrégée. Nous démontrons une forte généralisation intersujet et entre scanners avec diverses architectures visuelles, sans réentraînement ni réglage fin. De plus, notre approche ne nécessite ni alignement anatomique ni chevauchement des stimuli. Ce travail représente une étape cruciale vers un modèle fondateur généralisable pour le décodage cérébral non invasif.

English

Visual decoding from brain signals is a key challenge at the intersection of computer vision and neuroscience, requiring methods that bridge neural representations and computational models of vision. A field-wide goal is to achieve generalizable, cross-subject models. A major obstacle towards this goal is the substantial variability in neural representations across individuals, which has so far required training bespoke models or fine-tuning separately for each subject. To address this challenge, we introduce a meta-optimized approach for semantic visual decoding from fMRI that generalizes to novel subjects without any fine-tuning. By simply conditioning on a small set of image-brain activation examples from the new individual, our model rapidly infers their unique neural encoding patterns to facilitate robust and efficient visual decoding. Our approach is explicitly optimized for in-context learning of the new subject's encoding model and performs decoding by hierarchical inference, inverting the encoder. First, for multiple brain regions, we estimate the per-voxel visual response encoder parameters by constructing a context over multiple stimuli and responses. Second, we construct a context consisting of encoder parameters and response values over multiple voxels to perform aggregated functional inversion. We demonstrate strong cross-subject and cross-scanner generalization across diverse visual backbones without retraining or fine-tuning. Moreover, our approach requires neither anatomical alignment nor stimulus overlap. This work is a critical step towards a generalizable foundation model for non-invasive brain decoding.

Le métac-apprentissage en contexte permet le décodage cérébral inter-sujet sans entraînement

Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Résumé

Support