ChatPaper.aiChatPaper

MEGConformer: ロバストな音声・音素分類のためのConformerベースMEGデコーダ

MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification

December 1, 2025
著者: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI

要旨

本論文では、LibriBrain 2025 PNPLコンペティション向けに、Conformerベースのデコーダを提案する。これは、音声検出と音素分類という2つの基礎的MEGタスクを対象とする。我々のアプローチは、コンパクトなConformerを生の306チャネルMEG信号に適用し、軽量な畳み込み投影層とタスク特化のヘッドを組み合わせたものである。音声検出では、MEG向けに調整したSpecAugmentにより、MEG特有のデータ拡張手法の初期的探求を行った。音素分類では、100サンプル平均化された事例を扱うため、逆平方根クラス重み付けと動的グループ化ローダを採用した。さらに、単純なインスタンスレベルの正規化が、ホールドアウト分割における分布シフトを緩和する上で決定的に重要であることが示された。公式のStandardトラック分割とF1-macroスコアを用いたモデル選択により、最高のシステムはリーダーボードで音声検出88.9%、音素分類65.8%を達成し、コンペティションのベースラインを凌駕し、両タスクでトップ10内にランクインした。実装の詳細については、技術文書、ソースコード、チェックポイントをhttps://github.com/neural2speech/libribrain-experiments で公開している。
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.
PDF01December 3, 2025