ChatPaper.aiChatPaper

LLM-aangedreven grafemen-naar-foneemconversie: benchmark en casestudy

LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

September 13, 2024
Auteurs: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI

Samenvatting

Grafeme-naar-foneem (G2P) conversie is cruciaal in spraakverwerking, met name voor toepassingen zoals spraaksynthese. G2P systemen moeten taalkundig inzicht en contextueel bewustzijn hebben van talen met polyfone woorden en contextafhankelijke fonemen. Grote taalmodellen (LLM's) hebben onlangs aanzienlijk potentieel aangetoond in verschillende taaltaken, wat suggereert dat hun fonetische kennis kan worden benut voor G2P. In dit artikel evalueren we de prestaties van LLM's in G2P conversie en introduceren we methoden voor het geven van instructies en post-processing die LLM-uitvoer verbeteren zonder extra training of gelabelde gegevens. We presenteren ook een benchmark dataset die is ontworpen om de prestaties van G2P te beoordelen op zinsniveau fonetische uitdagingen van de Perzische taal. Onze resultaten tonen aan dat door de voorgestelde methoden toe te passen, LLM's traditionele G2P-tools kunnen overtreffen, zelfs in een ondervertegenwoordigde taal zoals het Perzisch, waarbij het potentieel van het ontwikkelen van LLM-ondersteunde G2P-systemen wordt benadrukt.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing, particularly for applications like speech synthesis. G2P systems must possess linguistic understanding and contextual awareness of languages with polyphone words and context-dependent phonemes. Large language models (LLMs) have recently demonstrated significant potential in various language tasks, suggesting that their phonetic knowledge could be leveraged for G2P. In this paper, we evaluate the performance of LLMs in G2P conversion and introduce prompting and post-processing methods that enhance LLM outputs without additional training or labeled data. We also present a benchmarking dataset designed to assess G2P performance on sentence-level phonetic challenges of the Persian language. Our results show that by applying the proposed methods, LLMs can outperform traditional G2P tools, even in an underrepresented language like Persian, highlighting the potential of developing LLM-aided G2P systems.

Summary

AI-Generated Summary

PDF31November 16, 2024