MEGConformer: Conformer-basierter MEG-Decoder für robuste Sprach- und Phonemklassifikation
MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification
December 1, 2025
papers.authors: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI
papers.abstract
Wir stellen Conformer-basierte Decoder für den LibriBrain 2025 PNPL-Wettbewerb vor, die auf zwei grundlegende MEG-Aufgaben abzielen: Spracherkennung und Phonemklassifizierung. Unser Ansatz adaptiert einen kompakten Conformer an rohe 306-Kanal-MEG-Signale, mit einer leichten Faltungsprojektionsschicht und aufgabenspezifischen Köpfen. Für die Spracherkennung bot eine MEG-orientierte SpecAugment-Erweiterung eine erste Erkundung MEG-spezifischer Augmentierung. Für die Phonemklassifizierung verwendeten wir eine Gewichtung nach dem Kehrwert der Quadratwurzel der Klassenhäufigkeit und einen dynamischen Gruppierungslader, um 100-fach gemittelte Beispiele zu verarbeiten. Zusätzlich erwies sich eine einfache Instanzen-Normalisierung als entscheidend, um Verteilungsverschiebungen im Holdout-Split abzumildern. Unter Verwendung der offiziellen Standard-Track-Aufteilungen und F1-Macro zur Modellauswahl erzielten unsere besten Systeme 88,9 % (Sprache) bzw. 65,8 % (Phoneme) auf dem Leaderboard, übertrafen die Wettbewerbs-Baselines und platzierten sich in beiden Aufgaben unter den Top 10. Weitere Implementierungsdetails, die technische Dokumentation, der Quellcode und Checkpoints sind unter https://github.com/neural2speech/libribrain-experiments verfügbar.
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.