ChatPaper.aiChatPaper

RabakBench: Escalando anotaciones humanas para construir puntos de referencia de seguridad multilingües localizados para lenguajes de bajos recursos

RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

July 8, 2025
Autores: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y sus clasificadores de seguridad suelen tener un rendimiento deficiente en lenguajes de bajos recursos debido a la limitada cantidad de datos de entrenamiento y benchmarks de evaluación. Este artículo presenta RabakBench, un nuevo benchmark de seguridad multilingüe localizado en el contexto lingüístico único de Singapur, que abarca el singlish, chino, malayo y tamil. RabakBench se construye mediante una pipeline escalable de tres etapas: (i) Generación - creación de ejemplos adversarios mediante la ampliación de contenido web real en singlish con técnicas de red teaming impulsadas por LLMs; (ii) Etiquetado - anotación semiautomatizada de seguridad con múltiples etiquetas utilizando clasificadores basados en LLMs con votación mayoritaria alineados con juicios humanos; y (iii) Traducción - traducción de alta fidelidad que preserva los matices lingüísticos y la toxicidad entre idiomas. El conjunto de datos final incluye más de 5,000 ejemplos etiquetados en seguridad en cuatro idiomas y seis categorías de seguridad detalladas con niveles de gravedad. Las evaluaciones de 11 clasificadores de seguridad populares, tanto de código abierto como cerrado, revelan una degradación significativa en el rendimiento. RabakBench no solo permite una evaluación robusta de la seguridad en entornos multilingües del sudeste asiático, sino que también ofrece un marco reproducible para la creación de conjuntos de datos de seguridad localizados en entornos de bajos recursos. El benchmark, incluidas las traducciones verificadas por humanos, y el código de evaluación están disponibles públicamente.
English
Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.
PDF11July 11, 2025