ChatPaper.aiChatPaper

高速で、派手さは不要:豊富なデータとルールベースモデルによるG2Pの再考

Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models

May 19, 2025
著者: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI

要旨

同綴異義語の曖昧性解消は、特に低リソース言語において、書記素から音素への変換(G2P)における重要な課題です。この課題は二つの側面があります:(1) バランスの取れた包括的な同綴異義語データセットの作成は労力とコストがかかり、(2) 特定の曖昧性解消戦略は追加の遅延を引き起こすため、スクリーンリーダーやその他のアクセシビリティツールのようなリアルタイムアプリケーションには適していません。本論文では、これらの両方の問題に対処します。まず、同綴異義語に焦点を当てたデータセットを構築するための半自動化パイプラインを提案し、このパイプラインを通じて生成されたHomoRichデータセットを紹介し、それをペルシャ語の最先端の深層学習ベースのG2Pシステムを強化するために適用することでその有効性を実証します。次に、オフラインの豊富なデータセットを活用して、スクリーンリーダーのような遅延に敏感なアクセシビリティアプリケーションに適した高速なルールベースの手法の開発に役立てるというパラダイムシフトを提唱します。この目的のために、最もよく知られているルールベースのG2Pシステムの一つであるeSpeakを改良し、高速な同綴異義語対応バージョンであるHomoFast eSpeakを作成しました。私たちの結果は、深層学習ベースのシステムとeSpeakシステムの両方において、同綴異義語の曖昧性解消精度が約30%向上することを示しています。
English
Homograph disambiguation remains a significant challenge in grapheme-to-phoneme (G2P) conversion, especially for low-resource languages. This challenge is twofold: (1) creating balanced and comprehensive homograph datasets is labor-intensive and costly, and (2) specific disambiguation strategies introduce additional latency, making them unsuitable for real-time applications such as screen readers and other accessibility tools. In this paper, we address both issues. First, we propose a semi-automated pipeline for constructing homograph-focused datasets, introduce the HomoRich dataset generated through this pipeline, and demonstrate its effectiveness by applying it to enhance a state-of-the-art deep learning-based G2P system for Persian. Second, we advocate for a paradigm shift - utilizing rich offline datasets to inform the development of fast, rule-based methods suitable for latency-sensitive accessibility applications like screen readers. To this end, we improve one of the most well-known rule-based G2P systems, eSpeak, into a fast homograph-aware version, HomoFast eSpeak. Our results show an approximate 30% improvement in homograph disambiguation accuracy for the deep learning-based and eSpeak systems.

Summary

AI-Generated Summary

PDF02May 20, 2025