SEA-Guard: 동남아시아를 위한 문화 기반 다국어 안전 장치
SEA-Guard: Culturally Grounded Multilingual Safeguard for Southeast Asia
February 2, 2026
저자: Panuthep Tasawong, Jian Gang Ngui, Alham Fikri Aji, Trevor Cohn, Peerat Limkonchotiwat
cs.AI
초록
문화적 인식을 갖춘 안전장치는 현실 세계에서의 AI 정렬에 핵심적이며, 여기서 안전은 상식의 범위를 넘어 다양한 지역적 가치, 규범, 그리고 특정 지역의 규정을 포괄합니다. 그러나 대규모의 문화적 토대를 갖춘 데이터셋을 구축하는 것은 제한된 자원과 원어민 주해자의 부족으로 인해 어려운 과제입니다. 그 결과 많은 안전장치 모델이 영어 데이터셋의 기계 번역에 의존하며, 이는 종종 지역적이고 문화적 세부 뉘앙스를 놓치게 됩니다. 본 연구는 동남아시아(SEA)를 위한 진정성 있고 지역 특화된 안전 데이터셋을 확장 가능하게 생성하기 위한 새로운 에이전트 기반 데이터 생성 프레임워크를 제시합니다. 이를 기반으로 우리는 SEA 문화적 맥락에 기반한 최초의 다국어 안전장치 모델 패밀리인 SEA-Guard를 소개합니다. 다중 벤치마크와 문화적 변형 평가에서 SEA-Guard는 강력한 일반 안전 성능을 유지하면서 지역적으로 민감하거나 유해한 콘텐츠를 탐지하는 데 기존 안전장치들을 지속적으로 능가하는 성과를 보였습니다.
English
Culturally aware safeguards are crucial for AI alignment in real-world settings, where safety extends beyond common sense and encompasses diverse local values, norms, and region-specific regulations. However, building large-scale, culturally grounded datasets is challenging due to limited resources and a scarcity of native annotators. Consequently, many safeguard models rely on machine translation of English datasets, often missing regional and cultural nuances. We present a novel agentic data-generation framework to scalably create authentic, region-specific safety datasets for Southeast Asia (SEA). On this foundation, we introduce the SEA-Guard family, the first multilingual safeguard models grounded in SEA cultural contexts. Evaluated across multiple benchmarks and cultural variants, SEA-Guard consistently outperforms existing safeguards at detecting regionally sensitive or harmful content while maintaining strong general safety performance.