メタ学習によるインコンテキスト化が訓練不要の被験者間脳デコーディングを実現
Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding
April 9, 2026
著者: Mu Nan, Muquan Yu, Weijian Mai, Jacob S. Prince, Hossein Adeli, Rui Zhang, Jiahang Cao, Benjamin Becker, John A. Pyles, Margaret M. Henderson, Chunfeng Song, Nikolaus Kriegeskorte, Michael J. Tarr, Xiaoqing Hu, Andrew F. Luo
cs.AI
要旨
脳信号からの視覚的解読は、計算機科学と神経科学の学際的領域における核心的課題であり、神経表現と視覚の計算モデルを架橋する手法を必要とする。この分野全体の目標は、一般化可能で被験者横断的なモデルの実現である。この目標に対する主要な障壁は、個人間の神経表現の著しい変動性であり、これまで各被験者ごとに専用モデルの訓練や個別のファインチューニングを必要としてきた。この課題に対処するため、我々はfMRIからの意味的視覚解読において、一切のファインチューニングなしで新規被験者に一般化するメタ最適化アプローチを提案する。新規個人からの少数の画像-脳活動例に基づいて条件付けするだけで、本モデルはその個人特有の神経符号化パターンを迅速に推論し、頑健かつ効率的な視覚解読を可能にする。本手法は、新規被験者の符号化モデルの文脈内学習のために明示的に最適化され、符号化器を逆転させる階層的推論によって解読を実行する。第一に、複数の脳領域において、複数の刺激と応答からなる文脈を構築することで、ボクセル単位の視覚応答符号化器パラメータを推定する。第二に、複数のボクセルにわたる符号化器パラメータと応答値からなる文脈を構築し、集約的な機能的逆転を実行する。我々は、多様な視覚バックボーンにおいて、再訓練やファインチューニングなしで強力な被験者間・スキャナー間一般化を実証する。さらに、本手法は解剖学的な位置合わせや刺激の重複を必要としない。本研究は、非侵襲的脳解読のための一般化可能な基盤モデルに向けた重要な一歩である。
English
Visual decoding from brain signals is a key challenge at the intersection of computer vision and neuroscience, requiring methods that bridge neural representations and computational models of vision. A field-wide goal is to achieve generalizable, cross-subject models. A major obstacle towards this goal is the substantial variability in neural representations across individuals, which has so far required training bespoke models or fine-tuning separately for each subject. To address this challenge, we introduce a meta-optimized approach for semantic visual decoding from fMRI that generalizes to novel subjects without any fine-tuning. By simply conditioning on a small set of image-brain activation examples from the new individual, our model rapidly infers their unique neural encoding patterns to facilitate robust and efficient visual decoding. Our approach is explicitly optimized for in-context learning of the new subject's encoding model and performs decoding by hierarchical inference, inverting the encoder. First, for multiple brain regions, we estimate the per-voxel visual response encoder parameters by constructing a context over multiple stimuli and responses. Second, we construct a context consisting of encoder parameters and response values over multiple voxels to perform aggregated functional inversion. We demonstrate strong cross-subject and cross-scanner generalization across diverse visual backbones without retraining or fine-tuning. Moreover, our approach requires neither anatomical alignment nor stimulus overlap. This work is a critical step towards a generalizable foundation model for non-invasive brain decoding.