Расширение возможностей кросс-лингвистического тестирования поведения моделей обработки естественного языка с использованием типологических признаков
Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features
July 11, 2023
Авторы: Ester Hlavnova, Sebastian Ruder
cs.AI
Аннотация
Одной из проблем в разработке систем обработки естественного языка (NLP) для языков мира является понимание того, как они обобщают типологические различия, важные для реальных приложений. В связи с этим мы предлагаем M2C — морфологически осознанный фреймворк для поведенческого тестирования моделей NLP. Мы используем M2C для создания тестов, которые исследуют поведение моделей с учетом конкретных лингвистических особенностей в 12 типологически разнообразных языках. Мы оцениваем современные языковые модели на основе сгенерированных тестов. Хотя модели демонстрируют высокие результаты в большинстве тестов на английском языке, мы выявляем проблемы обобщения для определенных типологических характеристик, таких как временные выражения в суахили и сложные притяжательные конструкции в финском. Наши результаты подчеркивают необходимость разработки моделей, которые устраняют эти пробелы.
English
A challenge towards developing NLP systems for the world's languages is
understanding how they generalize to typological differences relevant for
real-world applications. To this end, we propose M2C, a morphologically-aware
framework for behavioral testing of NLP models. We use M2C to generate tests
that probe models' behavior in light of specific linguistic features in 12
typologically diverse languages. We evaluate state-of-the-art language models
on the generated tests. While models excel at most tests in English, we
highlight generalization failures to specific typological characteristics such
as temporal expressions in Swahili and compounding possessives in Finish. Our
findings motivate the development of models that address these blind spots.