Diarização Conjunta de Papéis de Locutor e ASR de Fim a Fim em Interações Adulto-Criança

Resumo

A transcrição precisa e a diarização de falantes em interações faladas entre crianças e adultos são cruciais para a pesquisa clínica e do desenvolvimento. No entanto, a anotação manual é demorada e de difícil escalonamento. Os sistemas automatizados existentes normalmente dependem de pipelines em cascata de diarização de falantes e reconhecimento de fala, o que pode levar à propagação de erros. Este artigo apresenta uma estrutura unificada de fim-para-fim que estende a arquitetura codificador-decodificador do Whisper para modelar conjuntamente o ASR e a diarização do papel do falante (criança/adulto). A abordagem proposta integra: (i) um esquema de treinamento de saída serializada que emite etiquetas de falante e carimbos de data/hora de início/fim, (ii) um cabeçalho de diarização leve a nível de *frame* que aprimora as representações codificadoras discriminativas do falante, (iii) supressão de silêncio guiada por diarização para melhor precisão temporal, e (iv) um procedimento de decodificação forçada baseado em máquina de estados que garante saídas estruturalmente válidas. Avaliações abrangentes em dois conjuntos de dados demonstram melhorias consistentes e substanciais em relação a duas linhas de base em cascata, alcançando menores taxas de erro de palavras em falantes múltiplos e demonstrando precisão de diarização competitiva nos modelos Whisper-small e Whisper-large. Esses achados destacam a eficácia e a utilidade prática da estrutura de modelagem conjunta proposta para gerar transcrições confiáveis, com atribuição de falante, de interações criança-adulto em escala. O código e os pesos do modelo estão publicamente disponíveis.

English

Accurate transcription and speaker diarization of child-adult spoken interactions are crucial for developmental and clinical research. However, manual annotation is time-consuming and challenging to scale. Existing automated systems typically rely on cascaded speaker diarization and speech recognition pipelines, which can lead to error propagation. This paper presents a unified end-to-end framework that extends the Whisper encoder-decoder architecture to jointly model ASR and child-adult speaker role diarization. The proposed approach integrates: (i) a serialized output training scheme that emits speaker tags and start/end timestamps, (ii) a lightweight frame-level diarization head that enhances speaker-discriminative encoder representations, (iii) diarization-guided silence suppression for improved temporal precision, and (iv) a state-machine-based forced decoding procedure that guarantees structurally valid outputs. Comprehensive evaluations on two datasets demonstrate consistent and substantial improvements over two cascaded baselines, achieving lower multi-talker word error rates and demonstrating competitive diarization accuracy across both Whisper-small and Whisper-large models. These findings highlight the effectiveness and practical utility of the proposed joint modeling framework for generating reliable, speaker-attributed transcripts of child-adult interactions at scale. The code and model weights are publicly available