エンドツーエンド統合型音声認識と話者役割ダイアライゼーションによる児童-成人相互作用解析
End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions
January 25, 2026
著者: Anfeng Xu, Tiantian Feng, Somer Bishop, Catherine Lord, Shrikanth Narayanan
cs.AI
要旨
子どもと大人の音声相互作用の正確な文字起こしと話者分離は、発達研究や臨床研究において極めて重要である。しかし、手動でのアノテーションは時間がかかり、規模の拡大が困難である。既存の自動化システムは、一般的に、話者分離と音声認識を組み合わせたカスケード型パイプラインに依存しており、エラー伝播を引き起こす可能性がある。本論文は、Whisperのエンコーダ・デコーダ構造を拡張し、ASRと子ども・大人の話者役割分離を共同でモデル化する、統合的なエンドツーエンドのフレームワークを提案する。提案手法は以下を統合している:(i) 話者タグと開始・終了タイムスタンプを出力するシリアライズ出力訓練スキーム、(ii) 話者識別性の高いエンコーダ表現を強化する軽量なフレームレベルの話者分離ヘッド、(iii) 時間精度を向上させるための話者分離誘導型無音抑制、(iv) 構造的に有効な出力を保証する状態機械ベースの強制デコード手順。2つのデータセットを用いた包括的評価により、2つのカスケード型ベースラインと比較して、一貫して大幅な改善が示され、マルチトーカー単語誤り率の低減と、Whisper-smallおよびWhisper-large両モデルにおいて競争力のある話者分離精度が達成された。これらの結果は、子どもと大人の相互作用に対する信頼性の高い話者属性付き文字起こしを大規模に生成するための、提案された共同モデリングフレームワークの有効性と実用性を強調するものである。コードとモデル重みは公開されている。
English
Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available