SEA-Guard: Salvaguarda Multilíngue Culturalmente Fundamentada para o Sudeste Asiático

Resumo

Proteções culturalmente conscientes são cruciais para o alinhamento da IA em contextos do mundo real, nos quais a segurança vai além do senso comum e abrange diversos valores locais, normas e regulamentações específicas de cada região. No entanto, a construção de conjuntos de dados em larga escala e com base cultural é desafiadora devido a recursos limitados e à escassez de anotadores nativos. Consequentemente, muitos modelos de salvaguarda dependem da tradução automática de conjuntos de dados em inglês, frequentemente perdendo nuances regionais e culturais. Apresentamos uma nova estrutura de geração de dados agentícia para criar de forma escalável conjuntos de dados de segurança autênticos e específicos para o Sudeste Asiático (SEA). Com base nisso, introduzimos a família SEA-Guard, os primeiros modelos de salvaguarda multilíngues fundamentados em contextos culturais do SEA. Avaliados em múltiplos benchmarks e variantes culturais, os modelos SEA-Guard superam consistentemente as salvaguardas existentes na detecção de conteúdo regionalmente sensível ou prejudicial, mantendo ao mesmo tempo um forte desempenho de segurança geral.

English

Culturally aware safeguards are crucial for AI alignment in real-world settings, where safety extends beyond common sense and encompasses diverse local values, norms, and region-specific regulations. However, building large-scale, culturally grounded datasets is challenging due to limited resources and a scarcity of native annotators. Consequently, many safeguard models rely on machine translation of English datasets, often missing regional and cultural nuances. We present a novel agentic data-generation framework to scalably create authentic, region-specific safety datasets for Southeast Asia (SEA). On this foundation, we introduce the SEA-Guard family, the first multilingual safeguard models grounded in SEA cultural contexts. Evaluated across multiple benchmarks and cultural variants, SEA-Guard consistently outperforms existing safeguards at detecting regionally sensitive or harmful content while maintaining strong general safety performance.