Rápido, no sofisticado: Replanteando G2P con datos enriquecidos y modelos basados en reglas
Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models
May 19, 2025
Autores: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
Resumen
La desambiguación de homógrafos sigue siendo un desafío significativo en la conversión de grafema a fonema (G2P), especialmente para lenguajes de bajos recursos. Este desafío es doble: (1) la creación de conjuntos de datos de homógrafos equilibrados y exhaustivos es laboriosa y costosa, y (2) las estrategias específicas de desambiguación introducen una latencia adicional, lo que las hace inadecuadas para aplicaciones en tiempo real como lectores de pantalla y otras herramientas de accesibilidad. En este artículo, abordamos ambos problemas. En primer lugar, proponemos una canalización semiautomatizada para construir conjuntos de datos centrados en homógrafos, presentamos el conjunto de datos HomoRich generado a través de esta canalización, y demostramos su eficacia aplicándolo para mejorar un sistema G2P basado en aprendizaje profundo de última generación para el persa. En segundo lugar, abogamos por un cambio de paradigma: utilizar conjuntos de datos ricos fuera de línea para informar el desarrollo de métodos rápidos basados en reglas, adecuados para aplicaciones de accesibilidad sensibles a la latencia, como los lectores de pantalla. Con este fin, mejoramos uno de los sistemas G2P basados en reglas más conocidos, eSpeak, en una versión rápida consciente de homógrafos, HomoFast eSpeak. Nuestros resultados muestran una mejora aproximada del 30% en la precisión de desambiguación de homógrafos para los sistemas basados en aprendizaje profundo y eSpeak.
English
Homograph disambiguation remains a significant challenge in
grapheme-to-phoneme (G2P) conversion, especially for low-resource languages.
This challenge is twofold: (1) creating balanced and comprehensive homograph
datasets is labor-intensive and costly, and (2) specific disambiguation
strategies introduce additional latency, making them unsuitable for real-time
applications such as screen readers and other accessibility tools. In this
paper, we address both issues. First, we propose a semi-automated pipeline for
constructing homograph-focused datasets, introduce the HomoRich dataset
generated through this pipeline, and demonstrate its effectiveness by applying
it to enhance a state-of-the-art deep learning-based G2P system for Persian.
Second, we advocate for a paradigm shift - utilizing rich offline datasets to
inform the development of fast, rule-based methods suitable for
latency-sensitive accessibility applications like screen readers. To this end,
we improve one of the most well-known rule-based G2P systems, eSpeak, into a
fast homograph-aware version, HomoFast eSpeak. Our results show an approximate
30% improvement in homograph disambiguation accuracy for the deep
learning-based and eSpeak systems.Summary
AI-Generated Summary