DiarizationLM : Post-traitement de la diarisation des locuteurs avec des modèles de langage de grande taille
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models
January 7, 2024
Auteurs: Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao
cs.AI
Résumé
Dans cet article, nous présentons DiarizationLM, un cadre permettant d'exploiter les grands modèles de langage (LLM) pour post-traiter les sorties d'un système de diarisation des locuteurs. Divers objectifs peuvent être atteints avec ce cadre proposé, tels que l'amélioration de la lisibilité de la transcription diarisée ou la réduction du taux d'erreur de diarisation des mots (WDER). Dans ce cadre, les sorties des systèmes de reconnaissance automatique de la parole (ASR) et de diarisation des locuteurs sont représentées sous un format textuel compact, qui est inclus dans l'invite d'un LLM éventuellement affiné. Les sorties du LLM peuvent être utilisées comme résultats de diarisation raffinés avec l'amélioration souhaitée. En tant qu'étape de post-traitement, ce cadre peut être facilement appliqué à tout système ASR et de diarisation des locuteurs prêt à l'emploi sans avoir à réentraîner les composants existants. Nos expériences montrent qu'un modèle PaLM 2-S affiné peut réduire le WDER de 25,9 % en relatif sur le jeu de données de conversations téléphoniques Fisher, et de 31 % en relatif sur le jeu de données Callhome English.
English
In this paper, we introduce DiarizationLM, a framework to leverage large
language models (LLM) to post-process the outputs from a speaker diarization
system. Various goals can be achieved with the proposed framework, such as
improving the readability of the diarized transcript, or reducing the word
diarization error rate (WDER). In this framework, the outputs of the automatic
speech recognition (ASR) and speaker diarization systems are represented as a
compact textual format, which is included in the prompt to an optionally
finetuned LLM. The outputs of the LLM can be used as the refined diarization
results with the desired enhancement. As a post-processing step, this framework
can be easily applied to any off-the-shelf ASR and speaker diarization systems
without retraining existing components. Our experiments show that a finetuned
PaLM 2-S model can reduce the WDER by rel. 25.9% on the Fisher telephone
conversation dataset, and rel. 31% on the Callhome English dataset.