Преобразование графем в фонемы с использованием LLM: оценка и кейс-стади.
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study
September 13, 2024
Авторы: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
Аннотация
Преобразование графем в фонемы (Grapheme-to-phoneme, G2P) является критически важным в обработке речи, особенно для приложений, таких как синтез речи. Системы G2P должны обладать лингвистическим пониманием и контекстуальным осознанием языков с полифонными словами и контекстозависимыми фонемами. Большие языковые модели (Large language models, LLMs) недавно продемонстрировали значительный потенциал в различных языковых задачах, что указывает на возможность использования их фонетических знаний для G2P. В данной статье мы оцениваем производительность LLM в преобразовании G2P и представляем методы подсказки и постобработки, которые улучшают выводы LLM без дополнительного обучения или размеченных данных. Мы также представляем набор данных для оценки производительности G2P на фонетических вызовах на уровне предложения в персидском языке. Наши результаты показывают, что применяя предложенные методы, LLM могут превзойти традиционные инструменты G2P, даже в недостаточно представленном языке, таком как персидский, подчеркивая потенциал развития систем G2P с использованием LLM.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing,
particularly for applications like speech synthesis. G2P systems must possess
linguistic understanding and contextual awareness of languages with polyphone
words and context-dependent phonemes. Large language models (LLMs) have
recently demonstrated significant potential in various language tasks,
suggesting that their phonetic knowledge could be leveraged for G2P. In this
paper, we evaluate the performance of LLMs in G2P conversion and introduce
prompting and post-processing methods that enhance LLM outputs without
additional training or labeled data. We also present a benchmarking dataset
designed to assess G2P performance on sentence-level phonetic challenges of the
Persian language. Our results show that by applying the proposed methods, LLMs
can outperform traditional G2P tools, even in an underrepresented language like
Persian, highlighting the potential of developing LLM-aided G2P systems.Summary
AI-Generated Summary