ChatPaper.aiChatPaper

RabakBench: Het opschalen van menselijke annotaties om gelokaliseerde meertalige veiligheidsbenchmarks te construeren voor talen met beperkte bronnen

RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

July 8, 2025
Auteurs: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee
cs.AI

Samenvatting

Grote taalmodellen (LLM's) en hun veiligheidsclassificatoren presteren vaak slecht op talen met beperkte bronnen vanwege beperkte trainingsgegevens en evaluatiebenchmarks. Dit artikel introduceert RabakBench, een nieuwe meertalige veiligheidsbenchmark die is toegespitst op de unieke taalkundige context van Singapore, met aandacht voor Singlish, Chinees, Maleis en Tamil. RabakBench is opgebouwd via een schaalbare drietrapspijplijn: (i) Genereren - het genereren van tegenvoorbeelden door het verrijken van echte Singlish webinhoud met LLM-gestuurde red teaming; (ii) Labelen - semi-geautomatiseerde multi-label veiligheidsannotatie met behulp van meerderheidsgestemde LLM-labelers die zijn afgestemd op menselijke oordelen; en (iii) Vertalen - hoogwaardige vertaling die taalkundige nuances en toxiciteit over talen behoudt. De uiteindelijke dataset bestaat uit meer dan 5.000 veiligheidsgelabelde voorbeelden in vier talen en zes fijnmazige veiligheidscategorieën met ernstniveaus. Evaluaties van 11 populaire open-source en closed-source guardrail-classificatoren tonen een significante prestatievermindering. RabakBench maakt niet alleen robuuste veiligheidsevaluatie mogelijk in meertalige omgevingen in Zuidoost-Azië, maar biedt ook een reproduceerbaar raamwerk voor het bouwen van gelokaliseerde veiligheidsdatasets in omgevingen met beperkte bronnen. De benchmarkdataset, inclusief de door mensen geverifieerde vertalingen, en de evaluatiecode zijn openbaar beschikbaar.
English
Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.
PDF11July 11, 2025