BiPhone: Modellering van Interlinguale Fonetische Invloeden in Tekst
BiPhone: Modeling Inter Language Phonetic Influences in Text
July 6, 2023
Auteurs: Abhirut Gupta, Ananya B. Sai, Richard Sproat, Yuri Vasilevski, James S. Ren, Ambarish Jash, Sukhdeep S. Sodhi, Aravindan Raghuveer
cs.AI
Samenvatting
Een groot aantal mensen wordt gedwongen om het web te gebruiken in een taal waarin ze een lage geletterdheid hebben, vanwege technologische asymmetrieën. Geschreven tekst in de tweede taal (L2) van dergelijke gebruikers bevat vaak een groot aantal fouten die worden beïnvloed door hun moedertaal (L1). Wij stellen een methode voor om fonemenverwarringen (klanken in L2 die een L1-spreker waarschijnlijk door elkaar haalt) te identificeren voor paren van L1 en L2. Deze verwarringen worden vervolgens ingevoegd in een generatief model (Bi-Phone) om synthetisch gecorrumpeerde L2-tekst te produceren. Door middel van menselijke evaluaties tonen we aan dat Bi-Phone plausibele corrupties genereert die verschillen tussen L1's en ook een brede dekking hebben op het web. We corrumperen ook de populaire taalbegripbenchmark SuperGLUE met onze techniek (FunGLUE voor Fonetsch Verstoorde GLUE) en laten zien dat state-of-the-art taalbegripmodellen slecht presteren. We introduceren ook een nieuwe pre-trainings taak voor fonemenvoorspelling die byte-modellen helpt om prestaties te herstellen die dicht bij SuperGLUE liggen. Tot slot brengen we ook de FunGLUE-benchmark uit om verder onderzoek te bevorderen naar fonetisch robuuste taalmodelen. Voor zover wij weten, is FunGLUE de eerste benchmark die L1-L2-interacties in tekst introduceert.
English
A large number of people are forced to use the Web in a language they have
low literacy in due to technology asymmetries. Written text in the second
language (L2) from such users often contains a large number of errors that are
influenced by their native language (L1). We propose a method to mine phoneme
confusions (sounds in L2 that an L1 speaker is likely to conflate) for pairs of
L1 and L2. These confusions are then plugged into a generative model (Bi-Phone)
for synthetically producing corrupted L2 text. Through human evaluations, we
show that Bi-Phone generates plausible corruptions that differ across L1s and
also have widespread coverage on the Web. We also corrupt the popular language
understanding benchmark SuperGLUE with our technique (FunGLUE for Phonetically
Noised GLUE) and show that SoTA language understating models perform poorly. We
also introduce a new phoneme prediction pre-training task which helps byte
models to recover performance close to SuperGLUE. Finally, we also release the
FunGLUE benchmark to promote further research in phonetically robust language
models. To the best of our knowledge, FunGLUE is the first benchmark to
introduce L1-L2 interactions in text.