MEGConformer : Décodeur MEG basé sur Conformer pour une classification robuste de la parole et des phonèmes
MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification
December 1, 2025
papers.authors: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI
papers.abstract
Nous présentons des décodeurs basés sur l'architecture Conformer pour la compétition LibriBrain 2025 PNPL, ciblant deux tâches fondamentales en MEG : la Détection de la Parole et la Classification de Phonèmes. Notre approche adapte un Conformer compact aux signaux MEG bruts de 306 canaux, à l'aide d'une couche de projection convolutionnelle légère et de têtes spécifiques à chaque tâche. Pour la Détection de la Parole, une version de SpecAugment adaptée au MEG a fourni une première exploration de l'augmentation de données spécifique au MEG. Pour la Classification de Phonèmes, nous avons utilisé une pondération des classes par l'inverse de la racine carrée et un chargeur de données avec regroupement dynamique pour traiter des exemples moyennés sur 100 échantillons. De plus, une simple normalisation au niveau de l'instance s'est avérée cruciale pour atténuer les décalages de distribution sur l'ensemble de test. En utilisant les splits officiels de la piste Standard et le F1-macro pour la sélection des modèles, nos meilleurs systèmes ont atteint 88,9 % (Parole) et 65,8 % (Phonèmes) au classement, surpassant les modèles de référence de la compétition et se classant dans le top-10 pour les deux tâches. Pour plus de détails techniques, la documentation, le code source et les points de contrôle sont disponibles à l'adresse https://github.com/neural2speech/libribrain-experiments.
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.