빠르지만 화려하지 않음: 풍부한 데이터와 규칙 기반 모델로 G2P 재고하기
Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models
May 19, 2025
저자: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI
초록
동형이의어(homograph) 해소는 문자-음소 변환(G2P)에서 특히 저자원 언어를 대상으로 할 때 여전히 중요한 과제로 남아 있습니다. 이 문제는 두 가지 측면에서 발생합니다: (1) 균형 잡히고 포괄적인 동형이의어 데이터셋을 구축하는 작업은 노동 집약적이며 비용이 많이 들고, (2) 특정 해소 전략은 추가적인 지연 시간을 초래하여 스크린 리더와 같은 접근성 도구와 같은 실시간 애플리케이션에는 적합하지 않습니다. 본 논문에서는 이러한 두 가지 문제를 모두 해결하고자 합니다. 먼저, 동형이의어 중심 데이터셋 구축을 위한 반자동화 파이프라인을 제안하고, 이 파이프라인을 통해 생성된 HomoRich 데이터셋을 소개하며, 이를 페르시아어를 위한 최첨단 딥러닝 기반 G2P 시스템에 적용하여 그 효과를 입증합니다. 둘째, 오프라인에서 풍부한 데이터셋을 활용하여 스크린 리더와 같은 지연 시간에 민감한 접근성 애플리케이션에 적합한 빠른 규칙 기반 방법을 개발하는 패러다임 전환을 주장합니다. 이를 위해 가장 잘 알려진 규칙 기반 G2P 시스템 중 하나인 eSpeak을 개선하여 빠른 동형이의어 인식 버전인 HomoFast eSpeak을 개발했습니다. 우리의 실험 결과는 딥러닝 기반 시스템과 eSpeak 시스템 모두에서 동형이의어 해소 정확도가 약 30% 향상되었음을 보여줍니다.
English
Homograph disambiguation remains a significant challenge in
grapheme-to-phoneme (G2P) conversion, especially for low-resource languages.
This challenge is twofold: (1) creating balanced and comprehensive homograph
datasets is labor-intensive and costly, and (2) specific disambiguation
strategies introduce additional latency, making them unsuitable for real-time
applications such as screen readers and other accessibility tools. In this
paper, we address both issues. First, we propose a semi-automated pipeline for
constructing homograph-focused datasets, introduce the HomoRich dataset
generated through this pipeline, and demonstrate its effectiveness by applying
it to enhance a state-of-the-art deep learning-based G2P system for Persian.
Second, we advocate for a paradigm shift - utilizing rich offline datasets to
inform the development of fast, rule-based methods suitable for
latency-sensitive accessibility applications like screen readers. To this end,
we improve one of the most well-known rule-based G2P systems, eSpeak, into a
fast homograph-aware version, HomoFast eSpeak. Our results show an approximate
30% improvement in homograph disambiguation accuracy for the deep
learning-based and eSpeak systems.Summary
AI-Generated Summary