Conversione grafema-fonema potenziata da LLM: Benchmark e Studio di Caso
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study
September 13, 2024
Autori: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
Abstract
La conversione grafema-fonema (G2P) è fondamentale nel trattamento del linguaggio parlato, in particolare per applicazioni come la sintesi vocale. I sistemi G2P devono possedere una comprensione linguistica e consapevolezza contestuale delle lingue con parole polifoniche e fonemi dipendenti dal contesto. I grandi modelli linguistici (LLM) hanno recentemente dimostrato un significativo potenziale in varie attività linguistiche, suggerendo che la loro conoscenza fonetica potrebbe essere sfruttata per la G2P. In questo articolo, valutiamo le prestazioni dei LLM nella conversione G2P e introduciamo metodi di sollecitazione e post-elaborazione che migliorano le uscite dei LLM senza ulteriore addestramento o dati annotati. Presentiamo inoltre un dataset di benchmark progettato per valutare le prestazioni G2P sulle sfide fonetiche a livello di frase della lingua persiana. I nostri risultati mostrano che applicando i metodi proposti, i LLM possono superare gli strumenti G2P tradizionali, anche in una lingua poco rappresentata come il persiano, evidenziando il potenziale dello sviluppo di sistemi G2P assistiti dai LLM.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing,
particularly for applications like speech synthesis. G2P systems must possess
linguistic understanding and contextual awareness of languages with polyphone
words and context-dependent phonemes. Large language models (LLMs) have
recently demonstrated significant potential in various language tasks,
suggesting that their phonetic knowledge could be leveraged for G2P. In this
paper, we evaluate the performance of LLMs in G2P conversion and introduce
prompting and post-processing methods that enhance LLM outputs without
additional training or labeled data. We also present a benchmarking dataset
designed to assess G2P performance on sentence-level phonetic challenges of the
Persian language. Our results show that by applying the proposed methods, LLMs
can outperform traditional G2P tools, even in an underrepresented language like
Persian, highlighting the potential of developing LLM-aided G2P systems.Summary
AI-Generated Summary