Meta-aprendizaje en contexto permite la decodificación cerebral entre sujetos sin necesidad de entrenamiento

Resumen

La decodificación visual a partir de señales cerebrales es un desafío fundamental en la intersección de la visión por computador y la neurociencia, que requiere métodos que conecten las representaciones neurales con los modelos computacionales de la visión. Un objetivo general del campo es lograr modelos generalizables entre distintos sujetos. Un obstáculo importante para este objetivo es la variabilidad sustancial en las representaciones neurales entre individuos, lo que hasta ahora ha requerido entrenar modelos personalizados o ajustar parámetros por separado para cada sujeto. Para abordar este desafío, presentamos un enfoque optimizado mediante meta-aprendizaje para la decodificación visual semántica a partir de fMRI que generaliza a sujetos nuevos sin ningún ajuste fino. Simplemente condicionando el modelo con un pequeño conjunto de ejemplos de activación cerebral-imagen del nuevo individuo, nuestro modelo infiere rápidamente sus patrones únicos de codificación neural para facilitar una decodificación visual robusta y eficiente. Nuestro enfoque está explícitamente optimizado para el aprendizaje en contexto del modelo de codificación del nuevo sujeto y realiza la decodificación mediante inferencia jerárquica, invirtiendo el codificador. Primero, para múltiples regiones cerebrales, estimamos los parámetros del codificador de respuesta visual por vóxel construyendo un contexto sobre múltiples estímulos y respuestas. Segundo, construimos un contexto que consiste en parámetros del codificador y valores de respuesta a través de múltiples vóxeles para realizar una inversión funcional agregada. Demostramos una fuerte generalización entre sujetos y entre escáneres en diversos modelos base de visión sin reentrenamiento o ajuste fino. Además, nuestro enfoque no requiere ni alineación anatómica ni superposición de estímulos. Este trabajo representa un paso crítico hacia un modelo base generalizable para la decodificación cerebral no invasiva.

English

Visual decoding from brain signals is a key challenge at the intersection of computer vision and neuroscience, requiring methods that bridge neural representations and computational models of vision. A field-wide goal is to achieve generalizable, cross-subject models. A major obstacle towards this goal is the substantial variability in neural representations across individuals, which has so far required training bespoke models or fine-tuning separately for each subject. To address this challenge, we introduce a meta-optimized approach for semantic visual decoding from fMRI that generalizes to novel subjects without any fine-tuning. By simply conditioning on a small set of image-brain activation examples from the new individual, our model rapidly infers their unique neural encoding patterns to facilitate robust and efficient visual decoding. Our approach is explicitly optimized for in-context learning of the new subject's encoding model and performs decoding by hierarchical inference, inverting the encoder. First, for multiple brain regions, we estimate the per-voxel visual response encoder parameters by constructing a context over multiple stimuli and responses. Second, we construct a context consisting of encoder parameters and response values over multiple voxels to perform aggregated functional inversion. We demonstrate strong cross-subject and cross-scanner generalization across diverse visual backbones without retraining or fine-tuning. Moreover, our approach requires neither anatomical alignment nor stimulus overlap. This work is a critical step towards a generalizable foundation model for non-invasive brain decoding.

Meta-aprendizaje en contexto permite la decodificación cerebral entre sujetos sin necesidad de entrenamiento

Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Resumen

Support