ChatPaper.aiChatPaper

BiPhone: Моделирование межъязыковых фонетических влияний в тексте

BiPhone: Modeling Inter Language Phonetic Influences in Text

July 6, 2023
Авторы: Abhirut Gupta, Ananya B. Sai, Richard Sproat, Yuri Vasilevski, James S. Ren, Ambarish Jash, Sukhdeep S. Sodhi, Aravindan Raghuveer
cs.AI

Аннотация

Множество людей вынуждены использовать Интернет на языке, в котором они имеют низкий уровень грамотности, из-за технологических асимметрий. Письменный текст на втором языке (L2) от таких пользователей часто содержит множество ошибок, на которые влияет их родной язык (L1). Мы предлагаем метод для выявления фонемных путаниц (звуков в L2, которые носитель L1 может смешивать) для пар языков L1 и L2. Эти путаницы затем интегрируются в генеративную модель (Bi-Phone) для синтетического создания искаженного текста на L2. С помощью человеческой оценки мы показываем, что Bi-Phone генерирует правдоподобные искажения, которые различаются в зависимости от L1 и также имеют широкое распространение в Интернете. Мы также искажаем популярный бенчмарк для понимания языка SuperGLUE с помощью нашей техники (FunGLUE для фонетически зашумленного GLUE) и показываем, что современные модели понимания языка демонстрируют низкую производительность. Мы также вводим новую задачу предварительного обучения на предсказание фонем, которая помогает байтовым моделям восстановить производительность, близкую к SuperGLUE. Наконец, мы выпускаем бенчмарк FunGLUE для продвижения дальнейших исследований в области фонетически устойчивых языковых моделей. Насколько нам известно, FunGLUE является первым бенчмарком, который вводит взаимодействия L1-L2 в тексте.
English
A large number of people are forced to use the Web in a language they have low literacy in due to technology asymmetries. Written text in the second language (L2) from such users often contains a large number of errors that are influenced by their native language (L1). We propose a method to mine phoneme confusions (sounds in L2 that an L1 speaker is likely to conflate) for pairs of L1 and L2. These confusions are then plugged into a generative model (Bi-Phone) for synthetically producing corrupted L2 text. Through human evaluations, we show that Bi-Phone generates plausible corruptions that differ across L1s and also have widespread coverage on the Web. We also corrupt the popular language understanding benchmark SuperGLUE with our technique (FunGLUE for Phonetically Noised GLUE) and show that SoTA language understating models perform poorly. We also introduce a new phoneme prediction pre-training task which helps byte models to recover performance close to SuperGLUE. Finally, we also release the FunGLUE benchmark to promote further research in phonetically robust language models. To the best of our knowledge, FunGLUE is the first benchmark to introduce L1-L2 interactions in text.
PDF83December 15, 2024