DiarizationLM: Pós-processamento de Diarização de Locutores com Modelos de Linguagem de Grande Escala

Resumo

Neste artigo, apresentamos o DiarizationLM, um framework que utiliza grandes modelos de linguagem (LLM) para pós-processar as saídas de um sistema de diarização de falantes. Diversos objetivos podem ser alcançados com o framework proposto, como melhorar a legibilidade da transcrição diarizada ou reduzir a taxa de erro de diarização de palavras (WDER, na sigla em inglês). Neste framework, as saídas dos sistemas de reconhecimento automático de fala (ASR) e de diarização de falantes são representadas em um formato textual compacto, que é incluído no prompt de um LLM, opcionalmente ajustado. As saídas do LLM podem ser usadas como os resultados refinados de diarização com o aprimoramento desejado. Como uma etapa de pós-processamento, este framework pode ser facilmente aplicado a qualquer sistema de ASR e diarização de falantes disponível no mercado, sem a necessidade de retreinar os componentes existentes. Nossos experimentos mostram que um modelo PaLM 2-S ajustado pode reduzir o WDER em 25,9% relativo no conjunto de dados de conversas telefônicas Fisher e em 31% relativo no conjunto de dados Callhome English.

English

In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 25.9% on the Fisher telephone conversation dataset, and rel. 31% on the Callhome English dataset.

DiarizationLM: Pós-processamento de Diarização de Locutores com Modelos de Linguagem de Grande Escala

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

Resumo

Support