ChatPaper.aiChatPaper

Potenciando las pruebas de comportamiento multilingüe de modelos de PLN con características tipológicas

Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features

July 11, 2023
Autores: Ester Hlavnova, Sebastian Ruder
cs.AI

Resumen

Un desafío en el desarrollo de sistemas de PLN para los idiomas del mundo es comprender cómo estos se generalizan ante diferencias tipológicas relevantes para aplicaciones del mundo real. Con este fin, proponemos M2C, un marco morfológicamente consciente para la evaluación conductual de modelos de PLN. Utilizamos M2C para generar pruebas que examinan el comportamiento de los modelos en función de características lingüísticas específicas en 12 idiomas tipológicamente diversos. Evaluamos modelos de lenguaje de última generación en las pruebas generadas. Si bien los modelos destacan en la mayoría de las pruebas en inglés, resaltamos fallos de generalización ante características tipológicas específicas, como expresiones temporales en suajili y posesivos compuestos en finés. Nuestros hallazgos motivan el desarrollo de modelos que aborden estos puntos ciegos.
English
A challenge towards developing NLP systems for the world's languages is understanding how they generalize to typological differences relevant for real-world applications. To this end, we propose M2C, a morphologically-aware framework for behavioral testing of NLP models. We use M2C to generate tests that probe models' behavior in light of specific linguistic features in 12 typologically diverse languages. We evaluate state-of-the-art language models on the generated tests. While models excel at most tests in English, we highlight generalization failures to specific typological characteristics such as temporal expressions in Swahili and compounding possessives in Finish. Our findings motivate the development of models that address these blind spots.
PDF70December 15, 2024