ChatPaper.aiChatPaper

다국어 LLM 안전성 연구 현황: 언어 격차 측정에서 완화까지

The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It

May 30, 2025
저자: Zheng-Xin Yong, Beyza Ermis, Marzieh Fadaee, Stephen H. Bach, Julia Kreutzer
cs.AI

초록

본 논문은 LLM(대형 언어 모델) 안전성 연구의 언어적 다양성을 종합적으로 분석하며, 해당 분야가 영어 중심적으로 이루어지고 있음을 강조한다. 2020년부터 2024년까지 *ACL 주요 NLP 학회 및 워크숍에서 발표된 약 300편의 논문을 체계적으로 검토한 결과, LLM 안전성 연구에서 상당한 언어 격차가 존재하며, 이는 점점 더 커지고 있음을 확인하였다. 심지어 고자원 비영어권 언어들도 최소한의 관심만 받고 있으며, 비영어권 언어는 독립적인 언어로 연구되는 경우가 드물고, 영어 안전성 연구는 언어 문서화 관행이 미흡한 것으로 나타났다. 다국어 안전성 연구를 촉진하기 위해, 본 연구는 설문 조사를 바탕으로 여러 가지 권고 사항을 제시하고, 안전성 평가, 훈련 데이터 생성, 그리고 교차 언어 안전성 일반화에 대한 세 가지 구체적인 미래 연구 방향을 제안한다. 본 연구의 조사 결과와 제안된 방향을 바탕으로, 해당 분야는 다양한 글로벌 인구를 위한 더 견고하고 포용적인 AI 안전성 관행을 발전시킬 수 있을 것이다.
English
This paper presents a comprehensive analysis of the linguistic diversity of LLM safety research, highlighting the English-centric nature of the field. Through a systematic review of nearly 300 publications from 2020--2024 across major NLP conferences and workshops at *ACL, we identify a significant and growing language gap in LLM safety research, with even high-resource non-English languages receiving minimal attention. We further observe that non-English languages are rarely studied as a standalone language and that English safety research exhibits poor language documentation practice. To motivate future research into multilingual safety, we make several recommendations based on our survey, and we then pose three concrete future directions on safety evaluation, training data generation, and crosslingual safety generalization. Based on our survey and proposed directions, the field can develop more robust, inclusive AI safety practices for diverse global populations.
PDF12June 2, 2025