MEGConformer: Decodificador MEG Baseado em Conformer para Classificação Robusta de Fala e Fonemas
MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification
December 1, 2025
Autores: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI
Resumo
Apresentamos decodificadores baseados em Conformer para a competição LibriBrain 2025 PNPL, visando duas tarefas fundamentais de MEG: Deteção de Fala e Classificação de Fonemas. Nossa abordagem adapta um Conformer compacto para sinais MEG brutos de 306 canais, com uma camada de projeção convolucional leve e cabeças específicas para cada tarefa. Para a Deteção de Fala, um SpecAugment orientado para MEG forneceu uma primeira exploração de aumento de dados específico para MEG. Para a Classificação de Fonemas, utilizámos ponderação de classes inversa da raiz quadrada e um carregador de agrupamento dinâmico para lidar com exemplos médios de 100 amostras. Além disso, uma normalização simples a nível de instância mostrou-se crucial para mitigar desvios de distribuição na divisão de holdout. Utilizando as divisões oficiais da pista Standard e F1-macro para seleção de modelos, os nossos melhores sistemas alcançaram 88,9% (Fala) e 65,8% (Fonema) no *leaderboard*, superando as linhas de base da competição e posicionando-se no top-10 em ambas as tarefas. Para mais detalhes de implementação, a documentação técnica, o código fonte e os *checkpoints* estão disponíveis em https://github.com/neural2speech/libribrain-experiments.
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.