ChatPaper.aiChatPaper

BiPhone: テキストにおける言語間音声影響のモデリング

BiPhone: Modeling Inter Language Phonetic Influences in Text

July 6, 2023
著者: Abhirut Gupta, Ananya B. Sai, Richard Sproat, Yuri Vasilevski, James S. Ren, Ambarish Jash, Sukhdeep S. Sodhi, Aravindan Raghuveer
cs.AI

要旨

テクノロジーの非対称性により、多くの人々が低いリテラシーしか持たない言語でウェブを利用することを余儀なくされています。このようなユーザーが第二言語(L2)で書いたテキストには、母語(L1)の影響による多数の誤りが含まれることがよくあります。本研究では、L1とL2のペアに対して、音素の混同(L1話者がL2の音を混同しやすいもの)を抽出する手法を提案します。これらの混同を生成モデル(Bi-Phone)に組み込み、L2テキストの破損を人工的に生成します。人間による評価を通じて、Bi-PhoneがL1ごとに異なるもっともらしい破損を生成し、ウェブ上で広範にカバーされていることを示します。また、人気のある言語理解ベンチマークSuperGLUEを本手法で破損させたFunGLUE(Phonetically Noised GLUE)を作成し、最先端の言語理解モデルが低い性能しか発揮しないことを示します。さらに、バイトモデルがSuperGLUEに近い性能を回復するのに役立つ新しい音素予測事前学習タスクを導入します。最後に、音声的にロバストな言語モデルのさらなる研究を促進するため、FunGLUEベンチマークを公開します。私たちの知る限り、FunGLUEはテキストにL1-L2の相互作用を導入した最初のベンチマークです。
English
A large number of people are forced to use the Web in a language they have low literacy in due to technology asymmetries. Written text in the second language (L2) from such users often contains a large number of errors that are influenced by their native language (L1). We propose a method to mine phoneme confusions (sounds in L2 that an L1 speaker is likely to conflate) for pairs of L1 and L2. These confusions are then plugged into a generative model (Bi-Phone) for synthetically producing corrupted L2 text. Through human evaluations, we show that Bi-Phone generates plausible corruptions that differ across L1s and also have widespread coverage on the Web. We also corrupt the popular language understanding benchmark SuperGLUE with our technique (FunGLUE for Phonetically Noised GLUE) and show that SoTA language understating models perform poorly. We also introduce a new phoneme prediction pre-training task which helps byte models to recover performance close to SuperGLUE. Finally, we also release the FunGLUE benchmark to promote further research in phonetically robust language models. To the best of our knowledge, FunGLUE is the first benchmark to introduce L1-L2 interactions in text.
PDF83December 15, 2024