Transfert d'apprentissage MEG-à-MEG et détection croisée parole/silence avec des données limitées
MEG-to-MEG Transfer Learning and Cross-Task Speech/Silence Detection with Limited Data
February 20, 2026
Auteurs: Xabier de Zuazo, Vincenzo Verbeni, Eva Navas, Ibon Saratxaga, Mathieu Bourguignon, Nicola Molinaro
cs.AI
Résumé
Le décodage neuronal économe en données constitue un défi majeur pour les interfaces cerveau-ordinateur dédiées à la parole. Nous présentons la première démonstration de transfer learning et de décodage inter-tâches pour des modèles de parole basés sur la MEG, couvrant la perception et la production. Nous pré-entraînons un modèle basé sur l'architecture Conformer sur 50 heures de données d'écoute d'un seul sujet, puis l'affinons avec seulement 5 minutes de données par sujet sur 18 participants. Le transfer learning produit des améliorations constantes, avec des gains de précision intra-tâche de 1 à 4 % et des gains inter-tâches plus importants allant jusqu'à 5-6 %. Non seulement le pré-entraînement améliore les performances au sein de chaque tâche, mais il permet également un décodage inter-tâches fiable entre la perception et la production. Fait crucial, les modèles entraînés sur la production de parole décodent l'écoute passive au-dessus du niveau de chance, confirmant que les représentations apprises reflètent des processus neuronaux partagés plutôt qu'une activité motrice spécifique à la tâche.
English
Data-efficient neural decoding is a central challenge for speech brain-computer interfaces. We present the first demonstration of transfer learning and cross-task decoding for MEG-based speech models spanning perception and production. We pre-train a Conformer-based model on 50 hours of single-subject listening data and fine-tune on just 5 minutes per subject across 18 participants. Transfer learning yields consistent improvements, with in-task accuracy gains of 1-4% and larger cross-task gains of up to 5-6%. Not only does pre-training improve performance within each task, but it also enables reliable cross-task decoding between perception and production. Critically, models trained on speech production decode passive listening above chance, confirming that learned representations reflect shared neural processes rather than task-specific motor activity.