Veloce, non elaborato: Ripensare il G2P con dati ricchi e modelli basati su regole
Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models
May 19, 2025
Autori: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
Abstract
La disambiguazione degli omografi rimane una sfida significativa nella conversione da grafema a fonema (G2P), specialmente per le lingue con risorse limitate. Questa sfida è duplice: (1) la creazione di dataset di omografi bilanciati e completi è laboriosa e costosa, e (2) le strategie specifiche di disambiguazione introducono una latenza aggiuntiva, rendendole inadatte per applicazioni in tempo reale come i lettori di schermo e altri strumenti di accessibilità. In questo articolo, affrontiamo entrambi i problemi. In primo luogo, proponiamo una pipeline semi-automatizzata per la costruzione di dataset focalizzati sugli omografi, introduciamo il dataset HomoRich generato attraverso questa pipeline e ne dimostriamo l'efficacia applicandolo per migliorare un sistema G2P basato su deep learning all'avanguardia per il persiano. In secondo luogo, sosteniamo un cambio di paradigma: utilizzare dataset offline ricchi per informare lo sviluppo di metodi basati su regole veloci, adatti per applicazioni di accessibilità sensibili alla latenza come i lettori di schermo. A tal fine, miglioriamo uno dei sistemi G2P basati su regole più noti, eSpeak, in una versione veloce e consapevole degli omografi, HomoFast eSpeak. I nostri risultati mostrano un miglioramento approssimativo del 30% nell'accuratezza della disambiguazione degli omografi per i sistemi basati su deep learning e eSpeak.
English
Homograph disambiguation remains a significant challenge in
grapheme-to-phoneme (G2P) conversion, especially for low-resource languages.
This challenge is twofold: (1) creating balanced and comprehensive homograph
datasets is labor-intensive and costly, and (2) specific disambiguation
strategies introduce additional latency, making them unsuitable for real-time
applications such as screen readers and other accessibility tools. In this
paper, we address both issues. First, we propose a semi-automated pipeline for
constructing homograph-focused datasets, introduce the HomoRich dataset
generated through this pipeline, and demonstrate its effectiveness by applying
it to enhance a state-of-the-art deep learning-based G2P system for Persian.
Second, we advocate for a paradigm shift - utilizing rich offline datasets to
inform the development of fast, rule-based methods suitable for
latency-sensitive accessibility applications like screen readers. To this end,
we improve one of the most well-known rule-based G2P systems, eSpeak, into a
fast homograph-aware version, HomoFast eSpeak. Our results show an approximate
30% improvement in homograph disambiguation accuracy for the deep
learning-based and eSpeak systems.