End-to-End-Joint-ASR und Sprecherrollen-Diarisierung bei Kind-Erwachsenen-Interaktionen
End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions
January 25, 2026
papers.authors: Anfeng Xu, Tiantian Feng, Somer Bishop, Catherine Lord, Shrikanth Narayanan
cs.AI
papers.abstract
Eine genaue Transkription und Sprecherdiarisierung von gesprochenen Interaktionen zwischen Kindern und Erwachsenen ist entscheidend für die Entwicklungs- und klinische Forschung. Allerdings ist die manuelle Annotation zeitaufwändig und nur schwer zu skalieren. Bestehende automatisierte Systeme basieren typischerweise auf kaskadierten Pipelines für Sprecherdiarisierung und Spracherkennung, was zu Fehlerfortpflanzung führen kann. Dieses Papier stellt ein vereinheitlichtes End-to-End-Framework vor, das die Whisper-Encoder-Decoder-Architektur erweitert, um ASR und die Diarisierung der Sprecherrollen (Kind/Erwachsener) gemeinsam zu modellieren. Der vorgeschlagene Ansatz integriert: (i) ein Serialized-Output-Training-Schema, das Sprecherkennzeichnungen sowie Start- und Endzeitpunkte ausgibt, (ii) einen leichtgewichtigen Diarisierungs-Head auf Framebasis, der sprecherdiskriminative Encoder-Repräsentationen verbessert, (iii) diarisierungsgestützte Stilleunterdrückung für eine verbesserte zeitliche Präzision und (iv) ein auf einem Zustandsautomaten basierendes Forced-Decoding-Verfahren, das strukturell valide Ausgaben garantiert. Umfassende Auswertungen auf zwei Datensätzen zeigen durchgängige und erhebliche Verbesserungen gegenüber zwei kaskadierten Baseline-Systemen, erreichen niedrigere Multi-Talker-Word-Error-Rates und demonstrieren eine wettbewerbsfähige Diarisierungsgenauigkeit sowohl für Whisper-small- als auch Whisper-large-Modelle. Diese Ergebnisse unterstreichen die Wirksamkeit und praktische Nützlichkeit des vorgeschlagenen gemeinsamen Modellierungsframeworks zur Erstellung zuverlässiger, sprecherzugeordneter Transkripte von Kind-Erwachsenen-Interaktionen im großen Maßstab. Der Code und die Modellgewichte sind öffentlich verfügbar.
English
Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available