ChatPaper.aiChatPaper

Rapide, pas sophistiqué : Repenser la G2P avec des données riches et des modèles basés sur des règles

Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models

May 19, 2025
Auteurs: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI

Résumé

La désambiguïsation des homographes reste un défi majeur dans la conversion graphème-phonème (G2P), en particulier pour les langues à ressources limitées. Ce défi est double : (1) la création de jeux de données homographes équilibrés et complets est laborieuse et coûteuse, et (2) les stratégies spécifiques de désambiguïsation introduisent une latence supplémentaire, les rendant inadaptées aux applications en temps réel telles que les lecteurs d’écran et autres outils d’accessibilité. Dans cet article, nous abordons ces deux problèmes. Tout d’abord, nous proposons un pipeline semi-automatisé pour la construction de jeux de données centrés sur les homographes, présentons le jeu de données HomoRich généré grâce à ce pipeline, et démontrons son efficacité en l’appliquant pour améliorer un système G2P basé sur l’apprentissage profond de pointe pour le persan. Ensuite, nous plaidons pour un changement de paradigme : utiliser des jeux de données riches hors ligne pour guider le développement de méthodes rapides basées sur des règles, adaptées aux applications d’accessibilité sensibles à la latence comme les lecteurs d’écran. À cette fin, nous améliorons l’un des systèmes G2P basés sur des règles les plus connus, eSpeak, en une version rapide et consciente des homographes, HomoFast eSpeak. Nos résultats montrent une amélioration d’environ 30 % de la précision de désambiguïsation des homographes pour les systèmes basés sur l’apprentissage profond et eSpeak.
English
Homograph disambiguation remains a significant challenge in grapheme-to-phoneme (G2P) conversion, especially for low-resource languages. This challenge is twofold: (1) creating balanced and comprehensive homograph datasets is labor-intensive and costly, and (2) specific disambiguation strategies introduce additional latency, making them unsuitable for real-time applications such as screen readers and other accessibility tools. In this paper, we address both issues. First, we propose a semi-automated pipeline for constructing homograph-focused datasets, introduce the HomoRich dataset generated through this pipeline, and demonstrate its effectiveness by applying it to enhance a state-of-the-art deep learning-based G2P system for Persian. Second, we advocate for a paradigm shift - utilizing rich offline datasets to inform the development of fast, rule-based methods suitable for latency-sensitive accessibility applications like screen readers. To this end, we improve one of the most well-known rule-based G2P systems, eSpeak, into a fast homograph-aware version, HomoFast eSpeak. Our results show an approximate 30% improvement in homograph disambiguation accuracy for the deep learning-based and eSpeak systems.

Summary

AI-Generated Summary

PDF02May 20, 2025