ChatPaper.aiChatPaper

Reconnaissance et Diarisation des Rôles des Locuteurs de Bout en Bout dans les Interactions Enfant-Adulte

End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

January 25, 2026
papers.authors: Anfeng Xu, Tiantian Feng, Somer Bishop, Catherine Lord, Shrikanth Narayanan
cs.AI

papers.abstract

La transcription précise et la diarisation des locuteurs des interactions orales enfant-adulte sont cruciales pour la recherche en développement et en clinique. Cependant, l'annotation manuelle est chronophage et difficile à mettre à l'échelle. Les systèmes automatisés existants reposent généralement sur des cascades de diarisation des locuteurs et de reconnaissance de la parole, ce qui peut entraîner une propagation des erreurs. Cet article présente un cadre unifié de bout en bout qui étend l'architecture encodeur-décodeur de Whisper pour modéliser conjointement la reconnaissance automatique de la parole (ASR) et la diarisation des rôles des locuteurs (enfant-adulte). L'approche proposée intègre : (i) un schéma d'apprentissage à sortie sérialisée qui émet des étiquettes de locuteur et des horodatages de début/fin, (ii) une tête de diarisation légère au niveau de la trame qui améliore les représentations encodeur discriminantes des locuteurs, (iii) une suppression des silences guidée par la diarisation pour une meilleure précision temporelle, et (iv) une procédure de décodage forcé basée sur un automate à états finis qui garantit des sorties structurellement valides. Des évaluations approfondies sur deux jeux de données démontrent des améliorations constantes et substantielles par rapport à deux systèmes de référence en cascade, atteignant des taux d'erreur sur les mots plus faibles en conversation multi-locuteurs et affichant une précision de diarisation compétitive pour les modèles Whisper-small et Whisper-large. Ces résultats soulignent l'efficacité et l'utilité pratique du cadre de modélisation conjointe proposé pour générer à grande échelle des transcriptions fiables avec attribution des locuteurs pour les interactions enfant-adulte. Le code et les poids des modèles sont publics.
English
Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available
PDF41January 28, 2026