Rápido, Não Sofisticado: Repensando G2P com Dados Ricos e Modelos Baseados em Regras
Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models
May 19, 2025
Autores: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
Resumo
A desambiguação de homógrafos continua sendo um desafio significativo na conversão grafema-fonema (G2P), especialmente para idiomas de baixos recursos. Esse desafio é duplo: (1) a criação de conjuntos de dados de homógrafos balanceados e abrangentes é trabalhosa e custosa, e (2) estratégias específicas de desambiguação introduzem latência adicional, tornando-as inadequadas para aplicações em tempo real, como leitores de tela e outras ferramentas de acessibilidade. Neste artigo, abordamos ambas as questões. Primeiro, propomos um pipeline semiautomatizado para a construção de conjuntos de dados focados em homógrafos, apresentamos o conjunto de dados HomoRich gerado por meio desse pipeline e demonstramos sua eficácia ao aplicá-lo para aprimorar um sistema G2P baseado em aprendizado profundo de última geração para o persa. Segundo, defendemos uma mudança de paradigma - utilizar conjuntos de dados ricos offline para informar o desenvolvimento de métodos rápidos baseados em regras, adequados para aplicações de acessibilidade sensíveis à latência, como leitores de tela. Para isso, aprimoramos um dos sistemas G2P baseados em regras mais conhecidos, o eSpeak, em uma versão rápida e consciente de homógrafos, o HomoFast eSpeak. Nossos resultados mostram uma melhoria aproximada de 30% na precisão de desambiguação de homógrafos para os sistemas baseados em aprendizado profundo e eSpeak.
English
Homograph disambiguation remains a significant challenge in
grapheme-to-phoneme (G2P) conversion, especially for low-resource languages.
This challenge is twofold: (1) creating balanced and comprehensive homograph
datasets is labor-intensive and costly, and (2) specific disambiguation
strategies introduce additional latency, making them unsuitable for real-time
applications such as screen readers and other accessibility tools. In this
paper, we address both issues. First, we propose a semi-automated pipeline for
constructing homograph-focused datasets, introduce the HomoRich dataset
generated through this pipeline, and demonstrate its effectiveness by applying
it to enhance a state-of-the-art deep learning-based G2P system for Persian.
Second, we advocate for a paradigm shift - utilizing rich offline datasets to
inform the development of fast, rule-based methods suitable for
latency-sensitive accessibility applications like screen readers. To this end,
we improve one of the most well-known rule-based G2P systems, eSpeak, into a
fast homograph-aware version, HomoFast eSpeak. Our results show an approximate
30% improvement in homograph disambiguation accuracy for the deep
learning-based and eSpeak systems.