O Estado da Pesquisa em Segurança de LLMs Multilíngues: Da Medição da Lacuna Linguística à sua Mitigação
The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It
May 30, 2025
Autores: Zheng-Xin Yong, Beyza Ermis, Marzieh Fadaee, Stephen H. Bach, Julia Kreutzer
cs.AI
Resumo
Este artigo apresenta uma análise abrangente da diversidade linguística na pesquisa de segurança de LLMs (Large Language Models), destacando a natureza centrada no inglês do campo. Por meio de uma revisão sistemática de quase 300 publicações de 2020 a 2024 em conferências e workshops importantes de PLN (Processamento de Linguagem Natural) da *ACL, identificamos uma lacuna linguística significativa e crescente na pesquisa de segurança de LLMs, com até mesmo idiomas não ingleses de alto recurso recebendo atenção mínima. Observamos ainda que idiomas não ingleses raramente são estudados como uma língua autônoma e que a pesquisa de segurança em inglês apresenta práticas deficientes de documentação linguística. Para motivar pesquisas futuras em segurança multilíngue, fazemos várias recomendações com base em nossa pesquisa e, em seguida, propomos três direções concretas para o futuro: avaliação de segurança, geração de dados de treinamento e generalização de segurança entre idiomas. Com base em nossa pesquisa e nas direções propostas, o campo pode desenvolver práticas de segurança de IA mais robustas e inclusivas para diversas populações globais.
English
This paper presents a comprehensive analysis of the linguistic diversity of
LLM safety research, highlighting the English-centric nature of the field.
Through a systematic review of nearly 300 publications from 2020--2024 across
major NLP conferences and workshops at *ACL, we identify a significant and
growing language gap in LLM safety research, with even high-resource
non-English languages receiving minimal attention. We further observe that
non-English languages are rarely studied as a standalone language and that
English safety research exhibits poor language documentation practice. To
motivate future research into multilingual safety, we make several
recommendations based on our survey, and we then pose three concrete future
directions on safety evaluation, training data generation, and crosslingual
safety generalization. Based on our survey and proposed directions, the field
can develop more robust, inclusive AI safety practices for diverse global
populations.