ChatPaper.aiChatPaper

MEGConformer: Conformer-gebaseerde MEG-decoder voor robuuste spraak- en foneemclassificatie

MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification

December 1, 2025
Auteurs: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI

Samenvatting

Wij presenteren Conformer-gebaseerde decoders voor de LibriBrain 2025 PNPL-competitie, gericht op twee fundamentele MEG-taken: Spraakdetectie en Foneemclassificatie. Onze aanpaste past een compacte Conformer aan op ruwe 306-kanaals MEG-signalen, met een lichtgewicht convolutionele projectielaag en taakspecifieke koppen. Voor Spraakdetectie bood een MEG-gerichte SpecAugment een eerste verkenning van MEG-specifieke augmentatie. Voor Foneemclassificatie gebruikten we een omgekeerd-wortel-n klasseweging en een dynamische groeperingslader om te werken met voorbeelden die een gemiddelde zijn over 100 samples. Daarnaast bleek een eenvoudige normalisatie op instantieniveau cruciaal om distributieverschuivingen op de holdout-splitsing te mitigeren. Met behulp van de officiële Standard track-splitsingen en F1-macro voor modelselectie behaalden onze beste systemen scores van 88,9% (Spraak) en 65,8% (Foneem) op het scorebord, waarmee de competitie-baselines worden overtroffen en een positie in de top-10 voor beide taken wordt bereikt. Voor verdere implementatiedetails zijn de technische documentatie, broncode en checkpoints beschikbaar op https://github.com/neural2speech/libribrain-experiments.
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.
PDF01December 3, 2025