ChatPaper.aiChatPaper

Conversion Graphème-Phonème alimentée par LLM : Étude comparative et étude de cas

LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

September 13, 2024
Auteurs: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI

Résumé

La conversion graphème-phonème (G2P) est cruciale dans le traitement de la parole, en particulier pour des applications telles que la synthèse vocale. Les systèmes G2P doivent posséder une compréhension linguistique et une conscience contextuelle des langues avec des mots polyphoniques et des phonèmes dépendant du contexte. Les grands modèles de langage (LLM) ont récemment démontré un potentiel significatif dans diverses tâches linguistiques, suggérant que leurs connaissances phonétiques pourraient être exploitées pour le G2P. Dans cet article, nous évaluons les performances des LLM dans la conversion G2P et introduisons des méthodes de sollicitation et de post-traitement qui améliorent les sorties des LLM sans formation supplémentaire ni données étiquetées. Nous présentons également un ensemble de données de référence conçu pour évaluer les performances G2P sur des défis phonétiques au niveau des phrases de la langue persane. Nos résultats montrent qu'en appliquant les méthodes proposées, les LLM peuvent surpasser les outils G2P traditionnels, même dans une langue sous-représentée comme le persan, mettant en évidence le potentiel de développement de systèmes G2P assistés par LLM.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing, particularly for applications like speech synthesis. G2P systems must possess linguistic understanding and contextual awareness of languages with polyphone words and context-dependent phonemes. Large language models (LLMs) have recently demonstrated significant potential in various language tasks, suggesting that their phonetic knowledge could be leveraged for G2P. In this paper, we evaluate the performance of LLMs in G2P conversion and introduce prompting and post-processing methods that enhance LLM outputs without additional training or labeled data. We also present a benchmarking dataset designed to assess G2P performance on sentence-level phonetic challenges of the Persian language. Our results show that by applying the proposed methods, LLMs can outperform traditional G2P tools, even in an underrepresented language like Persian, highlighting the potential of developing LLM-aided G2P systems.

Summary

AI-Generated Summary

PDF31November 16, 2024