ChatPaper.aiChatPaper

Conversão Grafema-Fonema Potencializada por LLM: Referência e Estudo de Caso

LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

September 13, 2024
Autores: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI

Resumo

A conversão grafema-fonema (G2P) é crucial no processamento de fala, especialmente para aplicações como síntese de fala. Os sistemas G2P devem possuir compreensão linguística e consciência contextual de idiomas com palavras polifônicas e fonemas dependentes de contexto. Modelos de linguagem grandes (LLMs) demonstraram recentemente um potencial significativo em várias tarefas linguísticas, sugerindo que seu conhecimento fonético poderia ser aproveitado para G2P. Neste artigo, avaliamos o desempenho de LLMs na conversão G2P e introduzimos métodos de prompt e pós-processamento que aprimoram as saídas do LLM sem treinamento adicional ou dados rotulados. Também apresentamos um conjunto de dados de referência projetado para avaliar o desempenho G2P em desafios fonéticos em nível de sentença da língua persa. Nossos resultados mostram que, ao aplicar os métodos propostos, os LLMs podem superar ferramentas G2P tradicionais, mesmo em um idioma sub-representado como o persa, destacando o potencial de desenvolver sistemas G2P auxiliados por LLMs.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing, particularly for applications like speech synthesis. G2P systems must possess linguistic understanding and contextual awareness of languages with polyphone words and context-dependent phonemes. Large language models (LLMs) have recently demonstrated significant potential in various language tasks, suggesting that their phonetic knowledge could be leveraged for G2P. In this paper, we evaluate the performance of LLMs in G2P conversion and introduce prompting and post-processing methods that enhance LLM outputs without additional training or labeled data. We also present a benchmarking dataset designed to assess G2P performance on sentence-level phonetic challenges of the Persian language. Our results show that by applying the proposed methods, LLMs can outperform traditional G2P tools, even in an underrepresented language like Persian, highlighting the potential of developing LLM-aided G2P systems.

Summary

AI-Generated Summary

PDF31November 16, 2024