Rompiendo fronteras: Investigando los efectos de la edición de modelos en el rendimiento translingüístico
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance
June 17, 2024
Autores: Somnath Banerjee, Avik Halder, Rajarshi Mandal, Sayan Layek, Ian Soboroff, Rima Hazra, Animesh Mukherjee
cs.AI
Resumen
La integración de modelos de lenguaje preentrenados (PLMs, por sus siglas en inglés) como BERT y GPT ha revolucionado el procesamiento del lenguaje natural (NLP), especialmente para el inglés, pero también ha generado desequilibrios lingüísticos. Este artículo identifica estratégicamente la necesidad de equidad lingüística al examinar varias técnicas de edición de conocimiento en contextos multilingües. Evaluamos el rendimiento de modelos como Mistral, TowerInstruct, OpenHathi, Tamil-Llama y Kan-Llama en idiomas que incluyen inglés, alemán, francés, italiano, español, hindi, tamil y kannada. Nuestra investigación revela discrepancias significativas en modelos normales y fusionados en cuanto a la consistencia translingüística. Empleamos estrategias como "cada idioma por sí mismo" (ELFI) y "cada idioma para otros" (ELFO) para someter a prueba estos modelos. Nuestros hallazgos demuestran el potencial de los modelos de lenguaje grandes (LLMs) para superar barreras lingüísticas, sentando las bases para futuras investigaciones orientadas a lograr la inclusividad lingüística en las tecnologías de IA.
English
The integration of pretrained language models (PLMs) like BERT and GPT has
revolutionized NLP, particularly for English, but it has also created
linguistic imbalances. This paper strategically identifies the need for
linguistic equity by examining several knowledge editing techniques in
multilingual contexts. We evaluate the performance of models such as Mistral,
TowerInstruct, OpenHathi, Tamil-Llama, and Kan-Llama across languages including
English, German, French, Italian, Spanish, Hindi, Tamil, and Kannada. Our
research identifies significant discrepancies in normal and merged models
concerning cross-lingual consistency. We employ strategies like 'each language
for itself' (ELFI) and 'each language for others' (ELFO) to stress-test these
models. Our findings demonstrate the potential for LLMs to overcome linguistic
barriers, laying the groundwork for future research in achieving linguistic
inclusivity in AI technologies.Summary
AI-Generated Summary