Ermöglichung von cross-lingualem Verhaltenstest von NLP-Modellen durch typologische Merkmale
Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features
July 11, 2023
Autoren: Ester Hlavnova, Sebastian Ruder
cs.AI
Zusammenfassung
Eine Herausforderung bei der Entwicklung von NLP-Systemen für die Sprachen der Welt besteht darin, zu verstehen, wie sie sich auf typologische Unterschiede verallgemeinern lassen, die für reale Anwendungen relevant sind. Zu diesem Zweck schlagen wir M2C vor, ein morphologisch bewusstes Framework für das Verhaltenstesten von NLP-Modellen. Wir verwenden M2C, um Tests zu generieren, die das Verhalten von Modellen im Hinblick auf spezifische linguistische Merkmale in 12 typologisch diversen Sprachen untersuchen. Wir evaluieren state-of-the-art Sprachmodelle anhand der generierten Tests. Während die Modelle bei den meisten Tests in Englisch hervorragend abschneiden, heben wir Generalisierungsfehler bei bestimmten typologischen Merkmalen hervor, wie beispielsweise temporale Ausdrücke im Swahili und zusammengesetzte Possessivkonstruktionen im Finnischen. Unsere Ergebnisse motivieren die Entwicklung von Modellen, die diese blinden Flecken adressieren.
English
A challenge towards developing NLP systems for the world's languages is
understanding how they generalize to typological differences relevant for
real-world applications. To this end, we propose M2C, a morphologically-aware
framework for behavioral testing of NLP models. We use M2C to generate tests
that probe models' behavior in light of specific linguistic features in 12
typologically diverse languages. We evaluate state-of-the-art language models
on the generated tests. While models excel at most tests in English, we
highlight generalization failures to specific typological characteristics such
as temporal expressions in Swahili and compounding possessives in Finish. Our
findings motivate the development of models that address these blind spots.