高速で、派手さは不要:豊富なデータとルールベースモデルによるG2Pの再考
Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models
May 19, 2025
著者: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
要旨
同綴異義語の曖昧性解消は、特に低リソース言語において、書記素から音素への変換(G2P)における重要な課題です。この課題は二つの側面があります:(1) バランスの取れた包括的な同綴異義語データセットの作成は労力とコストがかかり、(2) 特定の曖昧性解消戦略は追加の遅延を引き起こすため、スクリーンリーダーやその他のアクセシビリティツールのようなリアルタイムアプリケーションには適していません。本論文では、これらの両方の問題に対処します。まず、同綴異義語に焦点を当てたデータセットを構築するための半自動化パイプラインを提案し、このパイプラインを通じて生成されたHomoRichデータセットを紹介し、それをペルシャ語の最先端の深層学習ベースのG2Pシステムを強化するために適用することでその有効性を実証します。次に、オフラインの豊富なデータセットを活用して、スクリーンリーダーのような遅延に敏感なアクセシビリティアプリケーションに適した高速なルールベースの手法の開発に役立てるというパラダイムシフトを提唱します。この目的のために、最もよく知られているルールベースのG2Pシステムの一つであるeSpeakを改良し、高速な同綴異義語対応バージョンであるHomoFast eSpeakを作成しました。私たちの結果は、深層学習ベースのシステムとeSpeakシステムの両方において、同綴異義語の曖昧性解消精度が約30%向上することを示しています。
English
Homograph disambiguation remains a significant challenge in
grapheme-to-phoneme (G2P) conversion, especially for low-resource languages.
This challenge is twofold: (1) creating balanced and comprehensive homograph
datasets is labor-intensive and costly, and (2) specific disambiguation
strategies introduce additional latency, making them unsuitable for real-time
applications such as screen readers and other accessibility tools. In this
paper, we address both issues. First, we propose a semi-automated pipeline for
constructing homograph-focused datasets, introduce the HomoRich dataset
generated through this pipeline, and demonstrate its effectiveness by applying
it to enhance a state-of-the-art deep learning-based G2P system for Persian.
Second, we advocate for a paradigm shift - utilizing rich offline datasets to
inform the development of fast, rule-based methods suitable for
latency-sensitive accessibility applications like screen readers. To this end,
we improve one of the most well-known rule-based G2P systems, eSpeak, into a
fast homograph-aware version, HomoFast eSpeak. Our results show an approximate
30% improvement in homograph disambiguation accuracy for the deep
learning-based and eSpeak systems.Summary
AI-Generated Summary