ChatPaper.aiChatPaper

RabakBench: Scalare le annotazioni umane per costruire benchmark di sicurezza localizzati e multilingue per lingue a bassa disponibilità di risorse

RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

July 8, 2025
Autori: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee
cs.AI

Abstract

I grandi modelli linguistici (LLM) e i loro classificatori di sicurezza spesso hanno prestazioni scarse nelle lingue a bassa risorsa a causa della limitata disponibilità di dati di addestramento e benchmark di valutazione. Questo articolo introduce RabakBench, un nuovo benchmark di sicurezza multilingue localizzato nel contesto linguistico unico di Singapore, che copre Singlish, cinese, malese e tamil. RabakBench è costruito attraverso una pipeline scalabile in tre fasi: (i) Generazione - creazione di esempi avversari aumentando contenuti web reali in Singlish con tecniche di red teaming guidate da LLM; (ii) Etichettatura - annotazione semi-automatizzata multi-etichetta di sicurezza utilizzando classificatori LLM con voto a maggioranza allineati ai giudizi umani; e (iii) Traduzione - traduzione ad alta fedeltà che preserva le sfumature linguistiche e la tossicità tra le lingue. Il dataset finale comprende oltre 5.000 esempi etichettati per la sicurezza in quattro lingue e sei categorie di sicurezza granulari con livelli di gravità. Le valutazioni di 11 popolari classificatori di sicurezza open-source e closed-source rivelano un significativo degrado delle prestazioni. RabakBench non solo consente una valutazione robusta della sicurezza in contesti multilingue del Sud-est asiatico, ma offre anche un framework riproducibile per la creazione di dataset di sicurezza localizzati in ambienti a bassa risorsa. Il benchmark, incluse le traduzioni verificate da esseri umani, e il codice di valutazione sono pubblicamente disponibili.
English
Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.
PDF11July 11, 2025