DiarizationLM : Post-traitement de la diarisation des locuteurs avec des modèles de langage de grande taille

papers.abstract

Dans cet article, nous présentons DiarizationLM, un cadre permettant d'exploiter les grands modèles de langage (LLM) pour post-traiter les sorties d'un système de diarisation des locuteurs. Divers objectifs peuvent être atteints avec ce cadre proposé, tels que l'amélioration de la lisibilité de la transcription diarisée ou la réduction du taux d'erreur de diarisation des mots (WDER). Dans ce cadre, les sorties des systèmes de reconnaissance automatique de la parole (ASR) et de diarisation des locuteurs sont représentées sous un format textuel compact, qui est inclus dans l'invite d'un LLM éventuellement affiné. Les sorties du LLM peuvent être utilisées comme résultats de diarisation raffinés avec l'amélioration souhaitée. En tant qu'étape de post-traitement, ce cadre peut être facilement appliqué à tout système ASR et de diarisation des locuteurs prêt à l'emploi sans avoir à réentraîner les composants existants. Nos expériences montrent qu'un modèle PaLM 2-S affiné peut réduire le WDER de 25,9 % en relatif sur le jeu de données de conversations téléphoniques Fisher, et de 31 % en relatif sur le jeu de données Callhome English.

English

In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 25.9% on the Fisher telephone conversation dataset, and rel. 31% on the Callhome English dataset.

DiarizationLM : Post-traitement de la diarisation des locuteurs avec des modèles de langage de grande taille

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

papers.abstract

Support