ChatPaper.aiChatPaper

Быстро, а не вычурно: переосмысление G2P с использованием богатых данных и моделей на основе правил

Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models

May 19, 2025
Авторы: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee
cs.AI

Аннотация

Разрешение омонимов остается серьезной проблемой в преобразовании графем в фонемы (G2P), особенно для языков с ограниченными ресурсами. Эта проблема имеет два аспекта: (1) создание сбалансированных и всеобъемлющих наборов данных с омонимами требует значительных усилий и затрат, и (2) специфические стратегии разрешения омонимов вносят дополнительную задержку, что делает их непригодными для приложений реального времени, таких как программы чтения с экрана и другие инструменты доступности. В данной статье мы рассматриваем обе проблемы. Во-первых, мы предлагаем полуавтоматизированный процесс для создания наборов данных, ориентированных на омонимы, представляем набор данных HomoRich, созданный с использованием этого процесса, и демонстрируем его эффективность, применяя его для улучшения современной системы G2P на основе глубокого обучения для персидского языка. Во-вторых, мы предлагаем смену парадигмы — использование богатых оффлайн-наборов данных для разработки быстрых, основанных на правилах методов, подходящих для приложений, чувствительных к задержкам, таких как программы чтения с экрана. С этой целью мы улучшаем одну из наиболее известных систем G2P на основе правил, eSpeak, превращая ее в быструю версию с поддержкой омонимов, HomoFast eSpeak. Наши результаты показывают приблизительное 30%-ное улучшение точности разрешения омонимов для систем на основе глубокого обучения и eSpeak.
English
Homograph disambiguation remains a significant challenge in grapheme-to-phoneme (G2P) conversion, especially for low-resource languages. This challenge is twofold: (1) creating balanced and comprehensive homograph datasets is labor-intensive and costly, and (2) specific disambiguation strategies introduce additional latency, making them unsuitable for real-time applications such as screen readers and other accessibility tools. In this paper, we address both issues. First, we propose a semi-automated pipeline for constructing homograph-focused datasets, introduce the HomoRich dataset generated through this pipeline, and demonstrate its effectiveness by applying it to enhance a state-of-the-art deep learning-based G2P system for Persian. Second, we advocate for a paradigm shift - utilizing rich offline datasets to inform the development of fast, rule-based methods suitable for latency-sensitive accessibility applications like screen readers. To this end, we improve one of the most well-known rule-based G2P systems, eSpeak, into a fast homograph-aware version, HomoFast eSpeak. Our results show an approximate 30% improvement in homograph disambiguation accuracy for the deep learning-based and eSpeak systems.

Summary

AI-Generated Summary

PDF02May 20, 2025