Ermöglichung von cross-lingualem Verhaltenstest von NLP-Modellen durch typologische Merkmale

papers.abstract

Eine Herausforderung bei der Entwicklung von NLP-Systemen für die Sprachen der Welt besteht darin, zu verstehen, wie sie sich auf typologische Unterschiede verallgemeinern lassen, die für reale Anwendungen relevant sind. Zu diesem Zweck schlagen wir M2C vor, ein morphologisch bewusstes Framework für das Verhaltenstesten von NLP-Modellen. Wir verwenden M2C, um Tests zu generieren, die das Verhalten von Modellen im Hinblick auf spezifische linguistische Merkmale in 12 typologisch diversen Sprachen untersuchen. Wir evaluieren state-of-the-art Sprachmodelle anhand der generierten Tests. Während die Modelle bei den meisten Tests in Englisch hervorragend abschneiden, heben wir Generalisierungsfehler bei bestimmten typologischen Merkmalen hervor, wie beispielsweise temporale Ausdrücke im Swahili und zusammengesetzte Possessivkonstruktionen im Finnischen. Unsere Ergebnisse motivieren die Entwicklung von Modellen, die diese blinden Flecken adressieren.

English

A challenge towards developing NLP systems for the world's languages is understanding how they generalize to typological differences relevant for real-world applications. To this end, we propose M2C, a morphologically-aware framework for behavioral testing of NLP models. We use M2C to generate tests that probe models' behavior in light of specific linguistic features in 12 typologically diverse languages. We evaluate state-of-the-art language models on the generated tests. While models excel at most tests in English, we highlight generalization failures to specific typological characteristics such as temporal expressions in Swahili and compounding possessives in Finish. Our findings motivate the development of models that address these blind spots.

Ermöglichung von cross-lingualem Verhaltenstest von NLP-Modellen durch typologische Merkmale

Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features

papers.abstract

Support