ChatPaper.aiChatPaper

RabakBench: 저자원 언어를 위한 지역화된 다국어 안전성 벤치마크 구축을 위한 인간 주석 확장

RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

July 8, 2025
저자: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee
cs.AI

초록

대규모 언어 모델(LLMs)과 그 안전성 분류기는 훈련 데이터와 평가 벤치마크가 제한적이기 때문에 저자원 언어에서 종종 낮은 성능을 보인다. 본 논문은 싱가포르의 독특한 언어적 맥락에 맞춰 현지화된 새로운 다국어 안전성 벤치마크인 RabakBench를 소개한다. 이 벤치마크는 싱글리시(Singlish), 중국어, 말레이어, 타밀어를 포함한다. RabakBench는 확장 가능한 3단계 파이프라인을 통해 구축되었다: (i) 생성 - 실제 싱글리시 웹 콘텐츠를 LLM 기반 레드 팀 기법으로 증강하여 적대적 예제를 생성; (ii) 라벨링 - 인간 판단과 일치하는 다수결 투표 방식의 LLM 라벨러를 사용한 반자동 다중 라벨 안전성 주석; (iii) 번역 - 언어 간 언어적 뉘앙스와 유해성을 보존하는 고품질 번역. 최종 데이터셋은 4개 언어와 6개의 세분화된 안전성 범주에 걸쳐 심각도 수준을 포함한 5,000개 이상의 안전성 라벨이 지정된 예제로 구성된다. 11개의 인기 있는 오픈소스 및 클로즈드소스 가드레일 분류기에 대한 평가 결과, 성능이 크게 저하되는 것으로 나타났다. RabakBench는 동남아시아 다국어 환경에서 견고한 안전성 평가를 가능하게 할 뿐만 아니라, 저자원 환경에서 현지화된 안전성 데이터셋을 구축하기 위한 재현 가능한 프레임워크를 제공한다. 벤치마크 데이터셋, 인간 검증 번역, 평가 코드는 공개적으로 이용 가능하다.
English
Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.
PDF11July 11, 2025