Het mogelijk maken van cross-linguïstisch gedragstesten van NLP-modellen met typologische kenmerken
Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features
July 11, 2023
Auteurs: Ester Hlavnova, Sebastian Ruder
cs.AI
Samenvatting
Een uitdaging bij het ontwikkelen van NLP-systemen voor de talen van de wereld is het begrijpen hoe deze generaliseren naar typologische verschillen die relevant zijn voor praktische toepassingen. Hiertoe stellen we M2C voor, een morfologisch bewust raamwerk voor gedragstesten van NLP-modellen. We gebruiken M2C om tests te genereren die het gedrag van modellen onderzoeken in het licht van specifieke linguïstische kenmerken in 12 typologisch diverse talen. We evalueren state-of-the-art taalmodellen op de gegenereerde tests. Hoewel modellen uitblinken in de meeste tests in het Engels, benadrukken we generalisatiefouten bij specifieke typologische kenmerken, zoals temporele uitdrukkingen in het Swahili en samengestelde bezitsvormen in het Fins. Onze bevindingen motiveren de ontwikkeling van modellen die deze blinde vlekken aanpakken.
English
A challenge towards developing NLP systems for the world's languages is
understanding how they generalize to typological differences relevant for
real-world applications. To this end, we propose M2C, a morphologically-aware
framework for behavioral testing of NLP models. We use M2C to generate tests
that probe models' behavior in light of specific linguistic features in 12
typologically diverse languages. We evaluate state-of-the-art language models
on the generated tests. While models excel at most tests in English, we
highlight generalization failures to specific typological characteristics such
as temporal expressions in Swahili and compounding possessives in Finish. Our
findings motivate the development of models that address these blind spots.