ChatPaper.aiChatPaper

RabakBench: Escalonando Anotações Humanas para Construir Benchmarks de Segurança Localizados e Multilíngues para Idiomas de Baixos Recursos

RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

July 8, 2025
Autores: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) e seus classificadores de segurança frequentemente apresentam desempenho insatisfatório em idiomas de baixos recursos devido à escassez de dados de treinamento e benchmarks de avaliação. Este artigo apresenta o RabakBench, um novo benchmark de segurança multilíngue localizado no contexto linguístico único de Singapura, abrangendo Singlish, Chinês, Malaio e Tâmil. O RabakBench é construído por meio de um pipeline escalável em três estágios: (i) Geração - criação de exemplos adversariais por meio da ampliação de conteúdo real da web em Singlish com red teaming impulsionado por LLMs; (ii) Rotulação - anotação semi-automatizada de segurança com múltiplos rótulos utilizando classificadores LLMs com voto majoritário alinhados com julgamentos humanos; e (iii) Tradução - tradução de alta fidelidade que preserva nuances linguísticas e toxicidade entre idiomas. O conjunto de dados final compreende mais de 5.000 exemplos rotulados por segurança em quatro idiomas e seis categorias de segurança detalhadas com níveis de gravidade. Avaliações de 11 classificadores de segurança populares, tanto de código aberto quanto proprietários, revelam uma degradação significativa no desempenho. O RabakBench não apenas permite uma avaliação robusta de segurança em contextos multilíngues do Sudeste Asiático, mas também oferece um framework reproduzível para a construção de conjuntos de dados de segurança localizados em ambientes de baixos recursos. O benchmark, incluindo as traduções verificadas por humanos e o código de avaliação, está disponível publicamente.
English
Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.
PDF11July 11, 2025