ChatPaper.aiChatPaper

Rompiendo fronteras: Investigando los efectos de la edición de modelos en el rendimiento translingüístico

Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance

June 17, 2024
Autores: Somnath Banerjee, Avik Halder, Rajarshi Mandal, Sayan Layek, Ian Soboroff, Rima Hazra, Animesh Mukherjee
cs.AI

Resumen

La integración de modelos de lenguaje preentrenados (PLMs, por sus siglas en inglés) como BERT y GPT ha revolucionado el procesamiento del lenguaje natural (NLP), especialmente para el inglés, pero también ha generado desequilibrios lingüísticos. Este artículo identifica estratégicamente la necesidad de equidad lingüística al examinar varias técnicas de edición de conocimiento en contextos multilingües. Evaluamos el rendimiento de modelos como Mistral, TowerInstruct, OpenHathi, Tamil-Llama y Kan-Llama en idiomas que incluyen inglés, alemán, francés, italiano, español, hindi, tamil y kannada. Nuestra investigación revela discrepancias significativas en modelos normales y fusionados en cuanto a la consistencia translingüística. Empleamos estrategias como "cada idioma por sí mismo" (ELFI) y "cada idioma para otros" (ELFO) para someter a prueba estos modelos. Nuestros hallazgos demuestran el potencial de los modelos de lenguaje grandes (LLMs) para superar barreras lingüísticas, sentando las bases para futuras investigaciones orientadas a lograr la inclusividad lingüística en las tecnologías de IA.
English
The integration of pretrained language models (PLMs) like BERT and GPT has revolutionized NLP, particularly for English, but it has also created linguistic imbalances. This paper strategically identifies the need for linguistic equity by examining several knowledge editing techniques in multilingual contexts. We evaluate the performance of models such as Mistral, TowerInstruct, OpenHathi, Tamil-Llama, and Kan-Llama across languages including English, German, French, Italian, Spanish, Hindi, Tamil, and Kannada. Our research identifies significant discrepancies in normal and merged models concerning cross-lingual consistency. We employ strategies like 'each language for itself' (ELFI) and 'each language for others' (ELFO) to stress-test these models. Our findings demonstrate the potential for LLMs to overcome linguistic barriers, laying the groundwork for future research in achieving linguistic inclusivity in AI technologies.

Summary

AI-Generated Summary

PDF131December 3, 2024