ChatPaper.aiChatPaper

MEGConformer: 강건한 음성 및 음소 분류를 위한 Conformer 기반 MEG 디코더

MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification

December 1, 2025
저자: Xabier de Zuazo, Ibon Saratxaga, Eva Navas
cs.AI

초록

LibriBrain 2025 PNPL 경쟁을 위한 Conformer 기반 디코더를 제안하며, 두 가지 기본 MEG 과제인 음성 감지(Speech Detection)와 음소 분류(Phoneme Classification)를 대상으로 합니다. 우리의 접근법은 경량 컨볼루션 투사 계층과 과제별 헤드를 사용하여 소형 Conformer를 306채널 원시 MEG 신호에 적용합니다. 음성 감지 과제를 위해 MEG에 특화된 SpecAugment를 도입하여 MEG 전용 증강 기법을 최초로 탐구했습니다. 음소 분류 과제에서는 100개 샘플이 평균된 예시를 처리하기 위해 제곱근 역수 클래스 가중치와 동적 그룹핑 로더를 사용했습니다. 또한, 간단한 인스턴스 수준 정규화가 홀드아웃 세트에서의 분포 변화를 완화하는 데 결정적으로 중요함을 입증했습니다. 공식 Standard 트랙 분할과 F1-macro 점수를 모델 선택 기준으로 사용하여, 우리의 최고 시스템은 리더보드에서 각각 88.9%(음성 감지)와 65.8%(음소 분류)의 성능을 달성했습니다. 이는 대회 기준선을 능가하며 두 과제 모두 상위 10위 안에 순위를 기록했습니다. 추가 구현 세부 사항, 기술 문서, 소스 코드 및 체크포인트는 https://github.com/neural2speech/libribrain-experiments에서 확인할 수 있습니다.
English
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.
PDF01December 3, 2025