ChatPaper.aiChatPaper

RabakBench : Mise à l'échelle des annotations humaines pour construire des benchmarks de sécurité multilingues localisés pour les langues à faibles ressources

RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

July 8, 2025
papers.authors: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee
cs.AI

papers.abstract

Les grands modèles de langage (LLM) et leurs classificateurs de sécurité performent souvent mal sur les langues peu dotées en raison de données d'entraînement et de benchmarks d'évaluation limités. Cet article présente RabakBench, un nouveau benchmark de sécurité multilingue localisé pour le contexte linguistique unique de Singapour, couvrant le singlish, le chinois, le malais et le tamoul. RabakBench est construit via un pipeline évolutif en trois étapes : (i) Génération - création d'exemples adverses par augmentation de contenu web réel en singlish avec un red teaming piloté par LLM ; (ii) Étiquetage - annotation semi-automatisée multi-labels de sécurité utilisant des classificateurs LLM alignés sur les jugements humains par vote majoritaire ; et (iii) Traduction - traduction haute fidélité préservant les nuances linguistiques et la toxicité entre les langues. Le jeu de données final comprend plus de 5 000 exemples étiquetés pour la sécurité dans quatre langues et six catégories de sécurité granulaires avec des niveaux de gravité. Les évaluations de 11 classificateurs de sécurité open-source et propriétaires populaires révèlent une dégradation significative des performances. RabakBench permet non seulement une évaluation robuste de la sécurité dans des contextes multilingues d'Asie du Sud-Est, mais offre également un cadre reproductible pour la construction de jeux de données de sécurité localisés dans des environnements à faibles ressources. Le benchmark, incluant les traductions vérifiées par des humains, et le code d'évaluation sont disponibles publiquement.
English
Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.
PDF11July 11, 2025