경계를 넘어서: 모델 편집이 다국어 성능에 미치는 영향 연구
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance
June 17, 2024
저자: Somnath Banerjee, Avik Halder, Rajarshi Mandal, Sayan Layek, Ian Soboroff, Rima Hazra, Animesh Mukherjee
cs.AI
초록
BERT와 GPT와 같은 사전 학습된 언어 모델(PLM)의 통합은 특히 영어에 있어서 NLP 분야를 혁신적으로 변화시켰지만, 동시에 언어적 불균형을 초래하기도 했습니다. 본 논문은 다국어 환경에서 여러 지식 편집 기법을 검토함으로써 언어적 형평성의 필요성을 전략적으로 규명합니다. 우리는 Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llama 등의 모델을 영어, 독일어, 프랑스어, 이탈리아어, 스페인어, 힌디어, 타밀어, 칸나다어를 포함한 다양한 언어에서 평가합니다. 본 연구는 정상 모델과 병합 모델 간의 교차 언어 일관성에서 상당한 차이를 확인합니다. 우리는 '각 언어는 스스로를 위해'(ELFI)와 '각 언어는 다른 언어를 위해'(ELFO)와 같은 전략을 사용하여 이러한 모델을 스트레스 테스트합니다. 연구 결과는 LLM이 언어적 장벽을 극복할 수 있는 잠재력을 보여주며, AI 기술에서 언어적 포용성을 달성하기 위한 미래 연구의 기반을 마련합니다.
English
The integration of pretrained language models (PLMs) like BERT and GPT has
revolutionized NLP, particularly for English, but it has also created
linguistic imbalances. This paper strategically identifies the need for
linguistic equity by examining several knowledge editing techniques in
multilingual contexts. We evaluate the performance of models such as Mistral,
TowerInstruct, OpenHathi, Tamil-Llama, and Kan-Llama across languages including
English, German, French, Italian, Spanish, Hindi, Tamil, and Kannada. Our
research identifies significant discrepancies in normal and merged models
concerning cross-lingual consistency. We employ strategies like 'each language
for itself' (ELFI) and 'each language for others' (ELFO) to stress-test these
models. Our findings demonstrate the potential for LLMs to overcome linguistic
barriers, laying the groundwork for future research in achieving linguistic
inclusivity in AI technologies.Summary
AI-Generated Summary