Rápido, no sofisticado: Replanteando G2P con datos enriquecidos y modelos basados en reglas

Resumen

La desambiguación de homógrafos sigue siendo un desafío significativo en la conversión de grafema a fonema (G2P), especialmente para lenguajes de bajos recursos. Este desafío es doble: (1) la creación de conjuntos de datos de homógrafos equilibrados y exhaustivos es laboriosa y costosa, y (2) las estrategias específicas de desambiguación introducen una latencia adicional, lo que las hace inadecuadas para aplicaciones en tiempo real como lectores de pantalla y otras herramientas de accesibilidad. En este artículo, abordamos ambos problemas. En primer lugar, proponemos una canalización semiautomatizada para construir conjuntos de datos centrados en homógrafos, presentamos el conjunto de datos HomoRich generado a través de esta canalización, y demostramos su eficacia aplicándolo para mejorar un sistema G2P basado en aprendizaje profundo de última generación para el persa. En segundo lugar, abogamos por un cambio de paradigma: utilizar conjuntos de datos ricos fuera de línea para informar el desarrollo de métodos rápidos basados en reglas, adecuados para aplicaciones de accesibilidad sensibles a la latencia, como los lectores de pantalla. Con este fin, mejoramos uno de los sistemas G2P basados en reglas más conocidos, eSpeak, en una versión rápida consciente de homógrafos, HomoFast eSpeak. Nuestros resultados muestran una mejora aproximada del 30% en la precisión de desambiguación de homógrafos para los sistemas basados en aprendizaje profundo y eSpeak.

English

Homograph disambiguation remains a significant challenge in grapheme-to-phoneme (G2P) conversion, especially for low-resource languages. This challenge is twofold: (1) creating balanced and comprehensive homograph datasets is labor-intensive and costly, and (2) specific disambiguation strategies introduce additional latency, making them unsuitable for real-time applications such as screen readers and other accessibility tools. In this paper, we address both issues. First, we propose a semi-automated pipeline for constructing homograph-focused datasets, introduce the HomoRich dataset generated through this pipeline, and demonstrate its effectiveness by applying it to enhance a state-of-the-art deep learning-based G2P system for Persian. Second, we advocate for a paradigm shift - utilizing rich offline datasets to inform the development of fast, rule-based methods suitable for latency-sensitive accessibility applications like screen readers. To this end, we improve one of the most well-known rule-based G2P systems, eSpeak, into a fast homograph-aware version, HomoFast eSpeak. Our results show an approximate 30% improvement in homograph disambiguation accuracy for the deep learning-based and eSpeak systems.

Rápido, no sofisticado: Replanteando G2P con datos enriquecidos y modelos basados en reglas

Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models

Resumen

Support