ChatPaper.aiChatPaper

Reconocimiento de Voz y Diarización de Roles de Hablantes de Extremo a Extremo en Interacciones Niño-Adulto

End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

January 25, 2026
Autores: Anfeng Xu, Tiantian Feng, Somer Bishop, Catherine Lord, Shrikanth Narayanan
cs.AI

Resumen

La transcripción precisa y la diarización de hablantes en las interacciones orales niño-adulto son cruciales para la investigación del desarrollo y clínica. Sin embargo, la anotación manual requiere mucho tiempo y es difícil de escalar. Los sistemas automatizados existentes suelen depender de pipelines en cascada de diarización de hablantes y reconocimiento de voz, lo que puede provocar una propagación de errores. Este artículo presenta un marco unificado de extremo a extremo que extiende la arquitectura codificador-decodificador de Whisper para modelar conjuntamente el ASR y la diarización de roles de hablante (niño/adulto). El enfoque propuesto integra: (i) un esquema de entrenamiento con salida serializada que emite etiquetas de hablante y marcas de tiempo de inicio/fin, (ii) un cabezal de diarización ligero a nivel de *frame* que mejora las representaciones codificadoras discriminativas de hablantes, (iii) una supresión de silencios guiada por diarización para una mejor precisión temporal, y (iv) un procedimiento de decodificación forzada basado en máquinas de estado que garantiza salidas estructuralmente válidas. Evaluaciones exhaustivas en dos conjuntos de datos demuestran mejoras consistentes y sustanciales respecto a dos líneas base en cascada, logrando menores tasas de error de palabras en conversaciones multitransmisor y mostrando una precisión de diarización competitiva tanto en los modelos Whisper-small como Whisper-large. Estos hallazgos resaltan la efectividad y utilidad práctica del marco de modelado conjunto propuesto para generar transcripciones fiables, con atribución de hablante, de las interacciones niño-adulto a escala. El código y los pesos del modelo están disponibles públicamente.
English
Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available
PDF41January 28, 2026