Conversion Graphème-Phonème alimentée par LLM : Étude comparative et étude de cas
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study
September 13, 2024
Auteurs: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
Résumé
La conversion graphème-phonème (G2P) est cruciale dans le traitement de la parole, en particulier pour des applications telles que la synthèse vocale. Les systèmes G2P doivent posséder une compréhension linguistique et une conscience contextuelle des langues avec des mots polyphoniques et des phonèmes dépendant du contexte. Les grands modèles de langage (LLM) ont récemment démontré un potentiel significatif dans diverses tâches linguistiques, suggérant que leurs connaissances phonétiques pourraient être exploitées pour le G2P. Dans cet article, nous évaluons les performances des LLM dans la conversion G2P et introduisons des méthodes de sollicitation et de post-traitement qui améliorent les sorties des LLM sans formation supplémentaire ni données étiquetées. Nous présentons également un ensemble de données de référence conçu pour évaluer les performances G2P sur des défis phonétiques au niveau des phrases de la langue persane. Nos résultats montrent qu'en appliquant les méthodes proposées, les LLM peuvent surpasser les outils G2P traditionnels, même dans une langue sous-représentée comme le persan, mettant en évidence le potentiel de développement de systèmes G2P assistés par LLM.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing,
particularly for applications like speech synthesis. G2P systems must possess
linguistic understanding and contextual awareness of languages with polyphone
words and context-dependent phonemes. Large language models (LLMs) have
recently demonstrated significant potential in various language tasks,
suggesting that their phonetic knowledge could be leveraged for G2P. In this
paper, we evaluate the performance of LLMs in G2P conversion and introduce
prompting and post-processing methods that enhance LLM outputs without
additional training or labeled data. We also present a benchmarking dataset
designed to assess G2P performance on sentence-level phonetic challenges of the
Persian language. Our results show that by applying the proposed methods, LLMs
can outperform traditional G2P tools, even in an underrepresented language like
Persian, highlighting the potential of developing LLM-aided G2P systems.Summary
AI-Generated Summary