End-to-end gezamenlijke automatische spraakherkenning en sprekersrol-diarisatie bij kind-volwassene interacties

Samenvatting

Nauwkeurige transcriptie en sprekersdiarisering van gesproken interacties tussen kinderen en volwassenen zijn cruciaal voor ontwikkelings- en klinisch onderzoek. Handmatige annotatie is echter tijdrovend en moeilijk op te schalen. Bestaande geautomatiseerde systemen zijn doorgaans gebaseerd op gecascadeerde pijplijnen voor sprekersdiarisering en spraakherkenning, wat kan leiden tot foutenpropagatie. Dit artikel presenteert een uniform end-to-end raamwerk dat de Whisper encoder-decoder-architectuur uitbreidt om ASR en diarisering van de sprekersrol (kind-volwassene) gezamenlijk te modelleren. De voorgestelde aanpak integreert: (i) een geserialiseerd output-trainingsschema dat sprekerlabels en start-/eindtijdstippen uitgeeft, (ii) een lichtgewicht diariseringsmodule op frameniveau die de sprekersdiscriminatieve encoderrepresentaties verbetert, (iii) diarisering-gestuurde stilte-onderdrukking voor verbeterde temporele precisie, en (iv) een op een toestandsautomaat gebaseerde geforceerde decoderingprocedure die structureel valide outputs garandeert. Uitgebreide evaluaties op twee datasets tonen consistente en substantiële verbeteringen ten opzichte van twee gecascadeerde baselines, met lagere multi-talker woordfoutenpercentages en competitieve diariseringsnauwkeurigheid voor zowel de Whisper-small als Whisper-large modellen. Deze bevindingen onderstrepen de effectiviteit en praktische bruikbaarheid van het voorgestelde gezamenlijke modelleerraamwerk voor het op grote schaal genereren van betrouwbare, aan sprekers toegewezen transcripties van kind-volwassene interacties. De code en modelgewichten zijn openbaar beschikbaar.

English

Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available

End-to-end gezamenlijke automatische spraakherkenning en sprekersrol-diarisatie bij kind-volwassene interacties

End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

Samenvatting

Support