Riconoscimento Vocale End-to-End e Diarizzazione dei Ruoli del Parlatore in Interazioni Adulto-Bambino

Abstract

La trascrizione accurata e la diarizzazione degli interlocutori nelle interazioni verbali bambino-adulto sono cruciali per la ricerca clinica e dello sviluppo. Tuttavia, l'annotazione manuale è dispendiosa in termini di tempo e difficile da scalare. I sistemi automatizzati esistenti si basano tipicamente su pipeline in cascata per la diarizzazione e il riconoscimento del parlato, che possono portare a propagazione degli errori. Questo articolo presenta un framework end-to-end unificato che estende l'architettura encoder-decoder di Whisper per modellare congiuntamente l'ASR e la diarizzazione dei ruoli parlante bambino/adulto. L'approccio proposto integra: (i) uno schema di addestramento con output serializzato che emette etichette del parlante e timestamp di inizio/fine, (ii) un modulo di diarizzazione leggero a livello di frame che migliora le rappresentazioni encoder discriminative per il parlante, (iii) una soppressione del silenzio guidata dalla diarizzazione per una maggiore precisione temporale, e (iv) una procedura di decoding forzato basata su macchina a stati che garantisce output strutturalmente validi. Valutazioni complete su due dataset dimostrano miglioramenti consistenti e sostanziali rispetto a due baseline a cascata, raggiungendo tassi di errore sulle parole in conversazioni multi-parlante più bassi e un'accuratezza di diarizzazione competitiva sia per i modelli Whisper-small che Whisper-large. Questi risultati evidenziano l'efficacia e l'utilità pratica del framework di modellazione congiunta proposto per generare trascrizioni affidabili, con attribuzione del parlante, delle interazioni bambino-adulto su larga scala. Il codice e i pesi del modello sono pubblicamente disponibili.

English

Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available

Riconoscimento Vocale End-to-End e Diarizzazione dei Ruoli del Parlatore in Interazioni Adulto-Bambino

End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

Abstract

Support