MEGConformer: Конформерный декодер MEG для надежной классификации речи и фонем
MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification
December 1, 2025
Авторы: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI
Аннотация
Мы представляем декодеры на основе Conformer для соревнования LibriBrain 2025 PNPL, ориентированные на две фундаментальные задачи MEG: обнаружение речи и классификацию фонем. Наш подход адаптирует компактную архитектуру Conformer для обработки сырых MEG-сигналов с 306 каналами, используя легковесный сверточный проекционный слой и специализированные головки для каждой задачи. Для обнаружения речи SpecAugment, адаптированный для MEG, позволил впервые исследовать аугментацию, специфичную для MEG-данных. Для классификации фонем мы применили взвешивание классов по обратному квадратному корню и динамический загрузчик с группировкой для работы с примерами, усредненными по 100 выборкам. Кроме того, простая нормализация на уровне экземпляра оказалась критически важной для смягчения сдвигов распределения в холд-аут выборке. Используя официальные разбиения Standard track и F1-macro для выбора модели, наши лучшие системы достигли результатов 88,9% (речь) и 65,8% (фонемы) в лидерборде, превзойдя базовые уровни конкурса и войдя в топ-10 по обеим задачам. Для получения дополнительных деталей реализации техническая документация, исходный код и контрольные точки доступны по адресу https://github.com/neural2speech/libribrain-experiments.
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.