ChatPaper.aiChatPaper

多言語LLM安全性研究の現状:言語格差の測定からその緩和へ

The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It

May 30, 2025
著者: Zheng-Xin Yong, Beyza Ermis, Marzieh Fadaee, Stephen H. Bach, Julia Kreutzer
cs.AI

要旨

本論文は、LLM(大規模言語モデル)の安全性研究における言語的多様性を包括的に分析し、この分野が英語中心であることを明らかにする。2020年から2024年にかけて*ACLの主要なNLP会議やワークショップで発表された約300件の論文を系統的にレビューした結果、LLM安全性研究において、高リソースの非英語言語でさえもほとんど注目されていないという著しい言語格差が存在し、それが拡大していることが判明した。さらに、非英語言語が単独の言語として研究されることは稀であり、英語の安全性研究においても言語ドキュメンテーションの実践が不十分であることが観察された。多言語安全性研究の今後の進展を促すため、本調査に基づいていくつかの提言を行い、安全性評価、トレーニングデータ生成、およびクロスリンガル安全性一般化に関する3つの具体的な将来の研究方向を提示する。本調査と提案された方向性に基づいて、この分野は多様なグローバル人口に向けたより堅牢で包括的なAI安全性の実践を発展させることができる。
English
This paper presents a comprehensive analysis of the linguistic diversity of LLM safety research, highlighting the English-centric nature of the field. Through a systematic review of nearly 300 publications from 2020--2024 across major NLP conferences and workshops at *ACL, we identify a significant and growing language gap in LLM safety research, with even high-resource non-English languages receiving minimal attention. We further observe that non-English languages are rarely studied as a standalone language and that English safety research exhibits poor language documentation practice. To motivate future research into multilingual safety, we make several recommendations based on our survey, and we then pose three concrete future directions on safety evaluation, training data generation, and crosslingual safety generalization. Based on our survey and proposed directions, the field can develop more robust, inclusive AI safety practices for diverse global populations.
PDF12June 2, 2025