SEA-Guard: Cultureel Verankerd Veiligheidsmechanisme voor Zuidoost-Azië

Samenvatting

Cultureel bewuste veiligheidsmaatregelen zijn cruciaal voor AI-afstemming in praktijksituaties, waarbij veiligheid verder reikt dan gezond verstand en diverse lokale waarden, normen en regiospecifieke voorschriften omvat. Het opbouwen van grootschalige, cultureel verankerde datasets is echter uitdagend door beperkte middelen en een schaarste aan moedertaalannotators. Hierdoor vertrouwen veel veiligheidsmodellen op machinale vertaling van Engelstalige datasets, waarbij regionale en culturele nuances vaak verloren gaan. Wij presenteren een nieuw agent-gebaseerd datageneratieraamwerk om op schaal authentieke, regiospecifieke veiligheidsdatasets voor Zuidoost-Azië (ZOA) te creëren. Op deze basis introduceren we de SEA-Guard-familie, de eerste meertalige veiligheidsmodellen verankerd in ZOA-culturele contexten. Evaluatie over meerdere benchmarks en culturele varianten toont aan dat SEA-Guard consequent beter presteert dan bestaande veiligheidsmodellen in het detecteren van regionaal gevoelige of schadelijke inhoud, terwijl het sterke algemene veiligheidsprestaties behoudt.

English

Culturally aware safeguards are crucial for AI alignment in real-world settings, where safety extends beyond common sense and encompasses diverse local values, norms, and region-specific regulations. However, building large-scale, culturally grounded datasets is challenging due to limited resources and a scarcity of native annotators. Consequently, many safeguard models rely on machine translation of English datasets, often missing regional and cultural nuances. We present a novel agentic data-generation framework to scalably create authentic, region-specific safety datasets for Southeast Asia (SEA). On this foundation, we introduce the SEA-Guard family, the first multilingual safeguard models grounded in SEA cultural contexts. Evaluated across multiple benchmarks and cultural variants, SEA-Guard consistently outperforms existing safeguards at detecting regionally sensitive or harmful content while maintaining strong general safety performance.

SEA-Guard: Cultureel Verankerd Veiligheidsmechanisme voor Zuidoost-Azië

SEA-Guard: Culturally Grounded Multilingual Safeguard for Southeast Asia

Samenvatting

Support