DiarizationLM: Постобработка диаризации говорящих с использованием крупных языковых моделей
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models
January 7, 2024
Авторы: Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao
cs.AI
Аннотация
В данной статье мы представляем DiarizationLM — фреймворк, который использует большие языковые модели (LLM) для постобработки результатов системы диаризации говорящих. С помощью предложенного фреймворка можно достичь различных целей, таких как улучшение читаемости диаризованной расшифровки или снижение частоты ошибок диаризации слов (WDER). В этом фреймворке выходы системы автоматического распознавания речи (ASR) и системы диаризации представляются в компактном текстовом формате, который включается в промпт для опционально дообученной LLM. Выходы LLM могут использоваться как уточненные результаты диаризации с желаемыми улучшениями. В качестве шага постобработки этот фреймворк может быть легко применен к любым готовым системам ASR и диаризации без необходимости переобучения существующих компонентов. Наши эксперименты показывают, что дообученная модель PaLM 2-S может снизить WDER на 25,9% относительно базового уровня на наборе данных телефонных разговоров Fisher и на 31% на наборе данных Callhome English.
English
In this paper, we introduce DiarizationLM, a framework to leverage large
language models (LLM) to post-process the outputs from a speaker diarization
system. Various goals can be achieved with the proposed framework, such as
improving the readability of the diarized transcript, or reducing the word
diarization error rate (WDER). In this framework, the outputs of the automatic
speech recognition (ASR) and speaker diarization systems are represented as a
compact textual format, which is included in the prompt to an optionally
finetuned LLM. The outputs of the LLM can be used as the refined diarization
results with the desired enhancement. As a post-processing step, this framework
can be easily applied to any off-the-shelf ASR and speaker diarization systems
without retraining existing components. Our experiments show that a finetuned
PaLM 2-S model can reduce the WDER by rel. 25.9% on the Fisher telephone
conversation dataset, and rel. 31% on the Callhome English dataset.