Conversión Grafema-Fonema Potenciada por LLM: Referencia y Estudio de Caso
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study
September 13, 2024
Autores: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
Resumen
La conversión grafema-fonema (G2P) es crucial en el procesamiento del habla, especialmente para aplicaciones como la síntesis del habla. Los sistemas G2P deben poseer comprensión lingüística y conciencia contextual de idiomas con palabras polifónicas y fonemas dependientes del contexto. Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han demostrado recientemente un potencial significativo en diversas tareas lingüísticas, lo que sugiere que su conocimiento fonético podría ser aprovechado para G2P. En este artículo, evaluamos el rendimiento de los LLMs en la conversión G2P e introducimos métodos de solicitud y post-procesamiento que mejoran las salidas de los LLMs sin necesidad de entrenamiento adicional o datos etiquetados. También presentamos un conjunto de datos de referencia diseñado para evaluar el rendimiento G2P en desafíos fonéticos a nivel de oraciones del idioma persa. Nuestros resultados muestran que al aplicar los métodos propuestos, los LLMs pueden superar a las herramientas G2P tradicionales, incluso en un idioma subrepresentado como el persa, resaltando el potencial de desarrollar sistemas G2P asistidos por LLMs.
English
Grapheme-to-phoneme (G2P) conversion is critical in speech processing,
particularly for applications like speech synthesis. G2P systems must possess
linguistic understanding and contextual awareness of languages with polyphone
words and context-dependent phonemes. Large language models (LLMs) have
recently demonstrated significant potential in various language tasks,
suggesting that their phonetic knowledge could be leveraged for G2P. In this
paper, we evaluate the performance of LLMs in G2P conversion and introduce
prompting and post-processing methods that enhance LLM outputs without
additional training or labeled data. We also present a benchmarking dataset
designed to assess G2P performance on sentence-level phonetic challenges of the
Persian language. Our results show that by applying the proposed methods, LLMs
can outperform traditional G2P tools, even in an underrepresented language like
Persian, highlighting the potential of developing LLM-aided G2P systems.Summary
AI-Generated Summary