SEA-Guard: Salvaguardia Multilingue e Culturalmente Contestualizzata per il Sud-est Asiatico

Abstract

Le salvaguardie culturalmente consapevoli sono cruciali per l'allineamento dell'IA in contesti reali, dove la sicurezza va oltre il senso comune e abbraccia valori locali, norme sociali e regolamentazioni specifiche di ogni regione. Tuttavia, la costruzione di dataset su larga scala e radicati culturalmente è complessa a causa di risorse limitate e della scarsità di annotatori madrelingua. Di conseguenza, molti modelli di sicurezza si basano sulla traduzione automatica di dataset in inglese, perdendo spesso le sfumature regionali e culturali. Presentiamo un nuovo framework agentico per la generazione di dati, progettato per creare in modo scalabile dataset autentici e specifici per la sicurezza nella regione del Sud-est asiatico (SEA). Su questa base, introduciamo la famiglia SEA-Guard, i primi modelli di sicurezza multilingue radicati nei contesti culturali del SEA. Valutati su molteplici benchmark e varianti culturali, i modelli SEA-Guard superano costantemente le salvaguardie esistenti nell'individuare contenuti sensibili o dannosi a livello regionale, mantenendo al contempo solide prestazioni di sicurezza generale.

English

Culturally aware safeguards are crucial for AI alignment in real-world settings, where safety extends beyond common sense and encompasses diverse local values, norms, and region-specific regulations. However, building large-scale, culturally grounded datasets is challenging due to limited resources and a scarcity of native annotators. Consequently, many safeguard models rely on machine translation of English datasets, often missing regional and cultural nuances. We present a novel agentic data-generation framework to scalably create authentic, region-specific safety datasets for Southeast Asia (SEA). On this foundation, we introduce the SEA-Guard family, the first multilingual safeguard models grounded in SEA cultural contexts. Evaluated across multiple benchmarks and cultural variants, SEA-Guard consistently outperforms existing safeguards at detecting regionally sensitive or harmful content while maintaining strong general safety performance.

SEA-Guard: Salvaguardia Multilingue e Culturalmente Contestualizzata per il Sud-est Asiatico

SEA-Guard: Culturally Grounded Multilingual Safeguard for Southeast Asia

Abstract

Support