BiPhone : Modélisation des influences phonétiques interlangues dans le texte
BiPhone: Modeling Inter Language Phonetic Influences in Text
July 6, 2023
Auteurs: Abhirut Gupta, Ananya B. Sai, Richard Sproat, Yuri Vasilevski, James S. Ren, Ambarish Jash, Sukhdeep S. Sodhi, Aravindan Raghuveer
cs.AI
Résumé
Un grand nombre de personnes sont contraintes d'utiliser le Web dans une langue pour laquelle elles ont une faible maîtrise en raison d'asymétries technologiques. Les textes écrits dans la deuxième langue (L2) par ces utilisateurs contiennent souvent un grand nombre d'erreurs influencées par leur langue maternelle (L1). Nous proposons une méthode pour identifier les confusions phonémiques (sons en L2 qu'un locuteur de L1 est susceptible de confondre) pour des paires de L1 et L2. Ces confusions sont ensuite intégrées dans un modèle génératif (Bi-Phone) afin de produire synthétiquement du texte corrompu en L2. Grâce à des évaluations humaines, nous montrons que Bi-Phone génère des corruptions plausibles qui varient selon les L1 et qui couvrent également une large partie du Web. Nous avons également corrompu le benchmark populaire de compréhension du langage SuperGLUE avec notre technique (FunGLUE pour GLUE bruité phonétiquement) et montrons que les modèles de compréhension du langage à l'état de l'art (SoTA) obtiennent de mauvaises performances. Nous introduisons également une nouvelle tâche de pré-entraînement de prédiction phonémique qui aide les modèles basés sur les octets à retrouver des performances proches de celles de SuperGLUE. Enfin, nous publions également le benchmark FunGLUE pour promouvoir des recherches supplémentaires sur des modèles de langage robustes phonétiquement. À notre connaissance, FunGLUE est le premier benchmark à introduire des interactions L1-L2 dans le texte.
English
A large number of people are forced to use the Web in a language they have
low literacy in due to technology asymmetries. Written text in the second
language (L2) from such users often contains a large number of errors that are
influenced by their native language (L1). We propose a method to mine phoneme
confusions (sounds in L2 that an L1 speaker is likely to conflate) for pairs of
L1 and L2. These confusions are then plugged into a generative model (Bi-Phone)
for synthetically producing corrupted L2 text. Through human evaluations, we
show that Bi-Phone generates plausible corruptions that differ across L1s and
also have widespread coverage on the Web. We also corrupt the popular language
understanding benchmark SuperGLUE with our technique (FunGLUE for Phonetically
Noised GLUE) and show that SoTA language understating models perform poorly. We
also introduce a new phoneme prediction pre-training task which helps byte
models to recover performance close to SuperGLUE. Finally, we also release the
FunGLUE benchmark to promote further research in phonetically robust language
models. To the best of our knowledge, FunGLUE is the first benchmark to
introduce L1-L2 interactions in text.