ChatPaper.aiChatPaper

MEGConformer: Decodificatore MEG basato su Conformer per una Classificazione Robusta del Linguaggio e dei Fonemi

MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification

December 1, 2025
Autori: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI

Abstract

Presentiamo decoder basati su Conformer per la competizione LibriBrain 2025 PNPL, mirati a due compiti fondamentali nel campo MEG: Rilevamento del Discorso e Classificazione dei Fonemi. Il nostro approccio adatta un Conformer compatto ai segnali MEG grezzi a 306 canali, utilizzando uno strato di proiezione convoluzionale leggero e teste specifiche per ogni compito. Per il Rilevamento del Discorso, una versione di SpecAugment orientata al MEG ha fornito una prima esplorazione dell'aumento dei dati specifico per il MEG. Per la Classificazione dei Fonemi, abbiamo utilizzato una ponderazione delle classi inversa alla radice quadrata e un caricatore dinamico di gruppi per gestire esempi mediati su 100 campioni. Inoltre, una semplice normalizzazione a livello di istanza si è rivelata cruciale per mitigare gli spostamenti di distribuzione sulla suddivisione di holdout. Utilizzando le suddivisioni ufficiali della traccia Standard e l'F1-macro per la selezione del modello, i nostri sistemi migliori hanno raggiunto l'88,9% (Discorso) e il 65,8% (Fonemi) sulla classifica, superando i baseline della competizione e posizionandosi nella top-10 in entrambi i compiti. Per ulteriori dettagli implementativi, la documentazione tecnica, il codice sorgente e i checkpoint sono disponibili all'indirizzo https://github.com/neural2speech/libribrain-experiments.
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.
PDF01December 3, 2025