ChatPaper.aiChatPaper

Сквозная совместная система автоматического распознавания речи и диаризации ролей говорящих для детско-взрослых взаимодействий

End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

January 25, 2026
Авторы: Anfeng Xu, Tiantian Feng, Somer Bishop, Catherine Lord, Shrikanth Narayanan
cs.AI

Аннотация

Точная расшифровка и диаризация говорящих в разговорах между детьми и взрослыми имеют решающее значение для исследований в области развития и клинической практики. Однако ручная разметка требует много времени и сложно масштабируется. Существующие автоматизированные системы обычно полагаются на каскадные конвейеры, включающие диаризацию говорящих и распознавание речи, что может приводить к распространению ошибок. В данной статье представлена единая end-to-end система, которая расширяет архитектуру кодера-декодера Whisper для совместного моделирования ASR и диаризации ролей говорящих (ребенок/взрослый). Предлагаемый подход интегрирует: (i) схему обучения с сериализованным выводом, которая генерирует метки говорящих и временные метки начала/окончания речи, (ii) легковесный модуль диаризации на уровне кадров, который улучшает дискриминативные представления говорящих в энкодере, (iii) подавление пауз, управляемое диаризацией, для повышения временной точности, и (iv) процедуру принудительного декодирования на основе конечного автомата, гарантирующую структурно корректные выходные данные. Комплексные оценки на двух наборах данных демонстрируют последовательное и существенное улучшение по сравнению с двумя каскадными базовыми методами, достигая более низкого уровня ошибок по словам в условиях перекрывающейся речи и показывая конкурентоспособную точность диаризации как для моделей Whisper-small, так и Whisper-large. Эти результаты подчеркивают эффективность и практическую полезность предложенной框架 совместного моделирования для создания надежных, атрибутированных по говорящим расшифровок детско-взрослых взаимодействий в масштабе. Код и веса моделей находятся в открытом доступе.
English
Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available
PDF41January 28, 2026