DiarizationLM: Постобработка диаризации говорящих с использованием крупных языковых моделей

Аннотация

В данной статье мы представляем DiarizationLM — фреймворк, который использует большие языковые модели (LLM) для постобработки результатов системы диаризации говорящих. С помощью предложенного фреймворка можно достичь различных целей, таких как улучшение читаемости диаризованной расшифровки или снижение частоты ошибок диаризации слов (WDER). В этом фреймворке выходы системы автоматического распознавания речи (ASR) и системы диаризации представляются в компактном текстовом формате, который включается в промпт для опционально дообученной LLM. Выходы LLM могут использоваться как уточненные результаты диаризации с желаемыми улучшениями. В качестве шага постобработки этот фреймворк может быть легко применен к любым готовым системам ASR и диаризации без необходимости переобучения существующих компонентов. Наши эксперименты показывают, что дообученная модель PaLM 2-S может снизить WDER на 25,9% относительно базового уровня на наборе данных телефонных разговоров Fisher и на 31% на наборе данных Callhome English.

English

In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 25.9% on the Fisher telephone conversation dataset, and rel. 31% on the Callhome English dataset.

DiarizationLM: Постобработка диаризации говорящих с использованием крупных языковых моделей

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

Аннотация

Support