ChatPaper.aiChatPaper

BiPhone: Modelización de Influencias Fonéticas Interlingüísticas en Texto

BiPhone: Modeling Inter Language Phonetic Influences in Text

July 6, 2023
Autores: Abhirut Gupta, Ananya B. Sai, Richard Sproat, Yuri Vasilevski, James S. Ren, Ambarish Jash, Sukhdeep S. Sodhi, Aravindan Raghuveer
cs.AI

Resumen

Un gran número de personas se ven obligadas a utilizar la web en un idioma en el que tienen un bajo nivel de alfabetización debido a asimetrías tecnológicas. Los textos escritos en el segundo idioma (L2) por estos usuarios suelen contener una gran cantidad de errores influenciados por su idioma nativo (L1). Proponemos un método para identificar confusiones fonémicas (sonidos en L2 que un hablante de L1 tiende a confundir) para pares de L1 y L2. Estas confusiones se integran en un modelo generativo (Bi-Phone) para producir sintéticamente texto corrupto en L2. Mediante evaluaciones humanas, demostramos que Bi-Phone genera corrupciones plausibles que varían según el L1 y que tienen una amplia cobertura en la web. También corrompemos el popular benchmark de comprensión del lenguaje SuperGLUE con nuestra técnica (FunGLUE, por "Phonetically Noised GLUE") y mostramos que los modelos de última generación en comprensión del lenguaje tienen un rendimiento deficiente. Además, introducimos una nueva tarea de pre-entrenamiento de predicción fonémica que ayuda a los modelos basados en bytes a recuperar un rendimiento cercano al de SuperGLUE. Finalmente, también publicamos el benchmark FunGLUE para fomentar más investigaciones en modelos de lenguaje fonéticamente robustos. Hasta donde sabemos, FunGLUE es el primer benchmark que introduce interacciones L1-L2 en texto.
English
A large number of people are forced to use the Web in a language they have low literacy in due to technology asymmetries. Written text in the second language (L2) from such users often contains a large number of errors that are influenced by their native language (L1). We propose a method to mine phoneme confusions (sounds in L2 that an L1 speaker is likely to conflate) for pairs of L1 and L2. These confusions are then plugged into a generative model (Bi-Phone) for synthetically producing corrupted L2 text. Through human evaluations, we show that Bi-Phone generates plausible corruptions that differ across L1s and also have widespread coverage on the Web. We also corrupt the popular language understanding benchmark SuperGLUE with our technique (FunGLUE for Phonetically Noised GLUE) and show that SoTA language understating models perform poorly. We also introduce a new phoneme prediction pre-training task which helps byte models to recover performance close to SuperGLUE. Finally, we also release the FunGLUE benchmark to promote further research in phonetically robust language models. To the best of our knowledge, FunGLUE is the first benchmark to introduce L1-L2 interactions in text.
PDF83December 15, 2024