ChatPaper.aiChatPaper

MEGConformer: Decodificador MEG Basado en Conformer para la Clasificación Robusta de Habla y Fonemas

MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification

December 1, 2025
Autores: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI

Resumen

Presentamos decodificadores basados en Conformer para la competición LibriBrain 2025 PNPL, centrándonos en dos tareas fundamentales de MEG: Detección de Voz y Clasificación de Fonemas. Nuestro enfoque adapta un Conformer compacto a las señales MEG crudas de 306 canales, utilizando una capa de proyección convolucional ligera y cabezales específicos para cada tarea. Para la Detección de Voz, una técnica SpecAugment orientada a MEG proporcionó una primera exploración de aumento de datos específico para MEG. Para la Clasificación de Fonemas, utilizamos una ponderación de clases inversa a la raíz cuadrada y un cargador de agrupación dinámica para manejar ejemplos promediados de 100 muestras. Además, una normalización simple a nivel de instancia resultó crucial para mitigar los cambios de distribución en la división de holdout. Utilizando las divisiones oficiales de la pista Estándar y F1-macro para la selección de modelos, nuestros mejores sistemas alcanzaron un 88,9% (Voz) y un 65,8% (Fonemas) en el ranking, superando los baselines de la competición y situándose entre los 10 primeros en ambas tareas. Para más detalles de implementación, la documentación técnica, el código fuente y los checkpoints están disponibles en https://github.com/neural2speech/libribrain-experiments.
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.
PDF01December 3, 2025