RabakBench: Масштабирование аннотаций для создания локализованных многоязычных тестов безопасности для малоресурсных языков
RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages
July 8, 2025
Авторы: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee
cs.AI
Аннотация
Крупные языковые модели (LLM) и их классификаторы безопасности часто демонстрируют низкую производительность на языках с ограниченными ресурсами из-за недостатка обучающих данных и оценочных тестов. В данной статье представлен RabakBench — новый многоязычный тест безопасности, адаптированный к уникальному языковому контексту Сингапура, охватывающий сингапурский английский (Singlish), китайский, малайский и тамильский языки. RabakBench создан с использованием масштабируемого трехэтапного процесса: (i) Генерация — создание адверсарных примеров путем дополнения реального веб-контента на сингапурском английском с использованием LLM для "красного командования"; (ii) Разметка — полуавтоматическая многометочная аннотация безопасности с использованием классификаторов LLM, согласованных с человеческими суждениями на основе большинства голосов; и (iii) Перевод — высококачественный перевод, сохраняющий языковые нюансы и токсичность между языками. Итоговый набор данных включает более 5000 примеров с метками безопасности на четырех языках и шести детализированных категориях безопасности с уровнями серьезности. Оценка 11 популярных открытых и закрытых классификаторов безопасности выявила значительное снижение производительности. RabakBench не только позволяет проводить надежную оценку безопасности в многоязычных условиях Юго-Восточной Азии, но также предлагает воспроизводимую структуру для создания локализованных наборов данных безопасности в условиях ограниченных ресурсов. Тестовый набор данных, включая проверенные человеком переводы, и код для оценки доступны публично.
English
Large language models (LLMs) and their safety classifiers often perform
poorly on low-resource languages due to limited training data and evaluation
benchmarks. This paper introduces RabakBench, a new multilingual safety
benchmark localized to Singapore's unique linguistic context, covering
Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a
scalable three-stage pipeline: (i) Generate - adversarial example generation by
augmenting real Singlish web content with LLM-driven red teaming; (ii) Label -
semi-automated multi-label safety annotation using majority-voted LLM labelers
aligned with human judgments; and (iii) Translate - high-fidelity translation
preserving linguistic nuance and toxicity across languages. The final dataset
comprises over 5,000 safety-labeled examples across four languages and six
fine-grained safety categories with severity levels. Evaluations of 11 popular
open-source and closed-source guardrail classifiers reveal significant
performance degradation. RabakBench not only enables robust safety evaluation
in Southeast Asian multilingual settings but also offers a reproducible
framework for building localized safety datasets in low-resource environments.
The benchmark dataset, including the human-verified translations, and
evaluation code are publicly available.