ChatPaper.aiChatPaper

Преобразование графем в фонемы с использованием LLM: оценка и кейс-стади.

LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

September 13, 2024
Авторы: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI

Аннотация

Преобразование графем в фонемы (Grapheme-to-phoneme, G2P) является критически важным в обработке речи, особенно для приложений, таких как синтез речи. Системы G2P должны обладать лингвистическим пониманием и контекстуальным осознанием языков с полифонными словами и контекстозависимыми фонемами. Большие языковые модели (Large language models, LLMs) недавно продемонстрировали значительный потенциал в различных языковых задачах, что указывает на возможность использования их фонетических знаний для G2P. В данной статье мы оцениваем производительность LLM в преобразовании G2P и представляем методы подсказки и постобработки, которые улучшают выводы LLM без дополнительного обучения или размеченных данных. Мы также представляем набор данных для оценки производительности G2P на фонетических вызовах на уровне предложения в персидском языке. Наши результаты показывают, что применяя предложенные методы, LLM могут превзойти традиционные инструменты G2P, даже в недостаточно представленном языке, таком как персидский, подчеркивая потенциал развития систем G2P с использованием LLM.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing, particularly for applications like speech synthesis. G2P systems must possess linguistic understanding and contextual awareness of languages with polyphone words and context-dependent phonemes. Large language models (LLMs) have recently demonstrated significant potential in various language tasks, suggesting that their phonetic knowledge could be leveraged for G2P. In this paper, we evaluate the performance of LLMs in G2P conversion and introduce prompting and post-processing methods that enhance LLM outputs without additional training or labeled data. We also present a benchmarking dataset designed to assess G2P performance on sentence-level phonetic challenges of the Persian language. Our results show that by applying the proposed methods, LLMs can outperform traditional G2P tools, even in an underrepresented language like Persian, highlighting the potential of developing LLM-aided G2P systems.

Summary

AI-Generated Summary

PDF31November 16, 2024