Het mogelijk maken van cross-linguïstisch gedragstesten van NLP-modellen met typologische kenmerken

Samenvatting

Een uitdaging bij het ontwikkelen van NLP-systemen voor de talen van de wereld is het begrijpen hoe deze generaliseren naar typologische verschillen die relevant zijn voor praktische toepassingen. Hiertoe stellen we M2C voor, een morfologisch bewust raamwerk voor gedragstesten van NLP-modellen. We gebruiken M2C om tests te genereren die het gedrag van modellen onderzoeken in het licht van specifieke linguïstische kenmerken in 12 typologisch diverse talen. We evalueren state-of-the-art taalmodellen op de gegenereerde tests. Hoewel modellen uitblinken in de meeste tests in het Engels, benadrukken we generalisatiefouten bij specifieke typologische kenmerken, zoals temporele uitdrukkingen in het Swahili en samengestelde bezitsvormen in het Fins. Onze bevindingen motiveren de ontwikkeling van modellen die deze blinde vlekken aanpakken.

English

A challenge towards developing NLP systems for the world's languages is understanding how they generalize to typological differences relevant for real-world applications. To this end, we propose M2C, a morphologically-aware framework for behavioral testing of NLP models. We use M2C to generate tests that probe models' behavior in light of specific linguistic features in 12 typologically diverse languages. We evaluate state-of-the-art language models on the generated tests. While models excel at most tests in English, we highlight generalization failures to specific typological characteristics such as temporal expressions in Swahili and compounding possessives in Finish. Our findings motivate the development of models that address these blind spots.

Het mogelijk maken van cross-linguïstisch gedragstesten van NLP-modellen met typologische kenmerken

Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features

Samenvatting

Support