Расширение возможностей кросс-лингвистического тестирования поведения моделей обработки естественного языка с использованием типологических признаков

Аннотация

Одной из проблем в разработке систем обработки естественного языка (NLP) для языков мира является понимание того, как они обобщают типологические различия, важные для реальных приложений. В связи с этим мы предлагаем M2C — морфологически осознанный фреймворк для поведенческого тестирования моделей NLP. Мы используем M2C для создания тестов, которые исследуют поведение моделей с учетом конкретных лингвистических особенностей в 12 типологически разнообразных языках. Мы оцениваем современные языковые модели на основе сгенерированных тестов. Хотя модели демонстрируют высокие результаты в большинстве тестов на английском языке, мы выявляем проблемы обобщения для определенных типологических характеристик, таких как временные выражения в суахили и сложные притяжательные конструкции в финском. Наши результаты подчеркивают необходимость разработки моделей, которые устраняют эти пробелы.

English

A challenge towards developing NLP systems for the world's languages is understanding how they generalize to typological differences relevant for real-world applications. To this end, we propose M2C, a morphologically-aware framework for behavioral testing of NLP models. We use M2C to generate tests that probe models' behavior in light of specific linguistic features in 12 typologically diverse languages. We evaluate state-of-the-art language models on the generated tests. While models excel at most tests in English, we highlight generalization failures to specific typological characteristics such as temporal expressions in Swahili and compounding possessives in Finish. Our findings motivate the development of models that address these blind spots.

Расширение возможностей кросс-лингвистического тестирования поведения моделей обработки естественного языка с использованием типологических признаков

Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features

Аннотация

Support