DiarizationLM: Pós-processamento de Diarização de Locutores com Modelos de Linguagem de Grande Escala
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models
January 7, 2024
Autores: Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao
cs.AI
Resumo
Neste artigo, apresentamos o DiarizationLM, um framework que utiliza grandes modelos de linguagem (LLM) para pós-processar as saídas de um sistema de diarização de falantes. Diversos objetivos podem ser alcançados com o framework proposto, como melhorar a legibilidade da transcrição diarizada ou reduzir a taxa de erro de diarização de palavras (WDER, na sigla em inglês). Neste framework, as saídas dos sistemas de reconhecimento automático de fala (ASR) e de diarização de falantes são representadas em um formato textual compacto, que é incluído no prompt de um LLM, opcionalmente ajustado. As saídas do LLM podem ser usadas como os resultados refinados de diarização com o aprimoramento desejado. Como uma etapa de pós-processamento, este framework pode ser facilmente aplicado a qualquer sistema de ASR e diarização de falantes disponível no mercado, sem a necessidade de retreinar os componentes existentes. Nossos experimentos mostram que um modelo PaLM 2-S ajustado pode reduzir o WDER em 25,9% relativo no conjunto de dados de conversas telefônicas Fisher e em 31% relativo no conjunto de dados Callhome English.
English
In this paper, we introduce DiarizationLM, a framework to leverage large
language models (LLM) to post-process the outputs from a speaker diarization
system. Various goals can be achieved with the proposed framework, such as
improving the readability of the diarized transcript, or reducing the word
diarization error rate (WDER). In this framework, the outputs of the automatic
speech recognition (ASR) and speaker diarization systems are represented as a
compact textual format, which is included in the prompt to an optionally
finetuned LLM. The outputs of the LLM can be used as the refined diarization
results with the desired enhancement. As a post-processing step, this framework
can be easily applied to any off-the-shelf ASR and speaker diarization systems
without retraining existing components. Our experiments show that a finetuned
PaLM 2-S model can reduce the WDER by rel. 25.9% on the Fisher telephone
conversation dataset, and rel. 31% on the Callhome English dataset.