EEG基盤モデル:進展、ベンチマーキング、および未解決問題
EEG Foundation Models: Progresses, Benchmarking, and Open Problems
January 25, 2026
著者: Dingkun Liu, Yuheng Chen, Zhu Chen, Zhenyao Cui, Yaozhi Wen, Jiayu An, Jingwei Luo, Dongrui Wu
cs.AI
要旨
脳波(EEG)基盤モデルは近年、大規模で多様な記録データから転移可能な神経表現を学習することを目指し、脳コンピュータインターフェース(BCI)における有望なパラダイムとして登場している。急速な進展にもかかわらず、事前学習の目的や前処理手法、下流評価プロトコルが統一されていないため、既存のEEG基盤モデルを公平かつ包括的に比較した研究は不足していた。本論文はこの空白を埋めるものである。まず50の代表的なモデルを検討し、データ標準化、モデルアーキテクチャ、自己教師あり事前学習戦略といった設計選択を統一的な分類体系に整理する。次に、オープンソースの12の基盤モデルと競合する専門モデルを、9つのBCIパラダイムにまたがる13のEEGデータセットで評価する。実世界での応用を重視し、被験者を一人残して評価するクロス被験者一般化と、被験者内の少数事例設定による迅速な適応の両方を検討する。さらに、事前学習された表現の転移性を評価するため、全パラメータのファインチューニングと線形 probing を比較し、モデル規模と下流性能の関係も検証する。結果は以下のことを示唆している:1)線形 probing では不十分な場合が頻繁にある、2)スクラッチから学習した専門モデルが多くのタスクで依然として競争力を持つ、3)現在のデータ体制と学習手法の下では、大規模な基盤モデルが必ずしも優れた一般化性能をもたらすわけではない。
English
Electroencephalography (EEG) foundation models have recently emerged as a promising paradigm for brain-computer interfaces (BCIs), aiming to learn transferable neural representations from large-scale heterogeneous recordings. Despite rapid progresses, there lacks fair and comprehensive comparisons of existing EEG foundation models, due to inconsistent pre-training objectives, preprocessing choices, and downstream evaluation protocols. This paper fills this gap. We first review 50 representative models and organize their design choices into a unified taxonomic framework including data standardization, model architectures, and self-supervised pre-training strategies. We then evaluate 12 open-source foundation models and competitive specialist baselines across 13 EEG datasets spanning nine BCI paradigms. Emphasizing real-world deployments, we consider both cross-subject generalization under a leave-one-subject-out protocol and rapid calibration under a within-subject few-shot setting. We further compare full-parameter fine-tuning with linear probing to assess the transferability of pre-trained representations, and examine the relationship between model scale and downstream performance. Our results indicate that: 1) linear probing is frequently insufficient; 2) specialist models trained from scratch remain competitive across many tasks; and, 3) larger foundation models do not necessarily yield better generalization performance under current data regimes and training practices.