ChatPaper.aiChatPaper

아동-성인 상호작용에서 종단간 음성 인식 및 화자 역할 다이어리제이션의 결합

End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

January 25, 2026
저자: Anfeng Xu, Tiantian Feng, Somer Bishop, Catherine Lord, Shrikanth Narayanan
cs.AI

초록

아동-성인 음성 상호작용의 정확한 전사와 화자 분할은 발달 및 임상 연구에 매우 중요합니다. 그러나 수동 주석은 시간이 많이 소요되고 규모 확장이 어렵습니다. 기존 자동화 시스템은 일반적으로 화자 분할과 음성 인식의 연속적 파이프라인에 의존하여 오류 전파를 초래할 수 있습니다. 본 논문은 Whisper 인코더-디코더 아키텍처를 확장하여 음성 인식과 아동-성인 화자 역할 분할을 공동으로 모델링하는 통합된 종단 간 프레임워크를 제안합니다. 제안된 접근법은 (i) 화자 태그와 시작/종료 타임스탬프를 출력하는 직렬화 출력 훈련 기법, (ii) 화자 구별적 인코더 표현을 강화하는 경량 프레임 수준 분할 헤드, (iii) 향상된 시간 정밀도를 위한 분할 기반 무음 구간 억제, (iv) 구조적으로 유효한 출력을 보장하는 상태 기반 강제 디코딩 절차를 통합합니다. 두 데이터셋에 대한 포괄적 평가를 통해 두 가지 연속적 기준 모델 대비 일관적이고 상당한 성능 향상을 보여주며, 더 낮은 다중 화자 단어 오류율을 달성하고 Whisper-small 및 Whisper-large 모델 전반에 걸쳐 경쟁력 있는 분할 정확도를 입증했습니다. 이러한 결과는 대규모 아동-성인 상호작용에 대해 신뢰할 수 있는 화자 귀속 전사본을 생성하는 제안된 공동 모델링 프레임워크의 효과성과 실용적 유용성을 강조합니다. 코드와 모델 가중치는 공개되어 있습니다.
English
Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available
PDF41January 28, 2026