ChatPaper.aiChatPaper

RabakBench: Skalierung menschlicher Annotationen zur Erstellung lokalisierter mehrsprachiger Sicherheits-Benchmarks für ressourcenarme Sprachen

RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

July 8, 2025
papers.authors: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) und ihre Sicherheitsklassifikatoren schneiden häufig schlecht bei ressourcenarmen Sprachen ab, was auf begrenzte Trainingsdaten und Evaluierungsbenchmarks zurückzuführen ist. Dieses Papier stellt RabakBench vor, einen neuen mehrsprachigen Sicherheitsbenchmark, der auf den einzigartigen linguistischen Kontext Singapurs zugeschnitten ist und Singlish, Chinesisch, Malayisch und Tamil abdeckt. RabakBench wird durch einen skalierbaren dreistufigen Pipeline-Prozess erstellt: (i) Generieren – Erzeugung von adversarischen Beispielen durch Anreicherung von echtem Singlish-Webinhalt mit LLM-gestützten Red-Teaming-Methoden; (ii) Labeln – halbautomatische Mehrfachlabel-Sicherheitsannotation unter Verwendung von mehrheitsbasierten LLM-Labeln, die mit menschlichen Urteilen abgestimmt sind; und (iii) Übersetzen – hochwertige Übersetzung, die linguistische Nuancen und Toxizität über Sprachen hinweg bewahrt. Der endgültige Datensatz umfasst über 5.000 sicherheitslabelte Beispiele in vier Sprachen und sechs fein abgestuften Sicherheitskategorien mit Schweregraden. Evaluierungen von 11 beliebten Open-Source- und Closed-Source-Sicherheitsklassifikatoren zeigen eine signifikante Leistungsverschlechterung. RabakBench ermöglicht nicht nur eine robuste Sicherheitsbewertung in südostasiatischen mehrsprachigen Umgebungen, sondern bietet auch einen reproduzierbaren Rahmen für die Erstellung lokalisierter Sicherheitsdatensätze in ressourcenarmen Umgebungen. Der Benchmark-Datensatz, einschließlich der von Menschen verifizierten Übersetzungen, und der Evaluierungscode sind öffentlich verfügbar.
English
Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.
PDF11July 11, 2025