ChatPaper.aiChatPaper

ShieldGemma: Moderação de Conteúdo de IA Generativa Baseada em Gemma

ShieldGemma: Generative AI Content Moderation Based on Gemma

July 31, 2024
Autores: Wenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez
cs.AI

Resumo

Apresentamos o ShieldGemma, um conjunto abrangente de modelos de moderação de conteúdo de segurança baseados em LLM construídos sobre o Gemma2. Esses modelos fornecem previsões robustas e de ponta de riscos de segurança em tipos-chave de danos (conteúdo sexualmente explícito, perigoso, assédio, discurso de ódio) tanto na entrada do usuário quanto na saída gerada pelo LLM. Ao avaliar em benchmarks públicos e internos, demonstramos desempenho superior em comparação com modelos existentes, como Llama Guard (+10,8\% AU-PRC em benchmarks públicos) e WildCard (+4,3\%). Além disso, apresentamos um novo pipeline de curadoria de dados baseado em LLM, adaptável a uma variedade de tarefas relacionadas à segurança e além. Demonstramos um forte desempenho de generalização para modelos treinados principalmente em dados sintéticos. Ao disponibilizar o ShieldGemma, oferecemos um recurso valioso para a comunidade de pesquisa, avançando a segurança do LLM e permitindo a criação de soluções de moderação de conteúdo mais eficazes para desenvolvedores.
English
We present ShieldGemma, a comprehensive suite of LLM-based safety content moderation models built upon Gemma2. These models provide robust, state-of-the-art predictions of safety risks across key harm types (sexually explicit, dangerous content, harassment, hate speech) in both user input and LLM-generated output. By evaluating on both public and internal benchmarks, we demonstrate superior performance compared to existing models, such as Llama Guard (+10.8\% AU-PRC on public benchmarks) and WildCard (+4.3\%). Additionally, we present a novel LLM-based data curation pipeline, adaptable to a variety of safety-related tasks and beyond. We have shown strong generalization performance for model trained mainly on synthetic data. By releasing ShieldGemma, we provide a valuable resource to the research community, advancing LLM safety and enabling the creation of more effective content moderation solutions for developers.

Summary

AI-Generated Summary

PDF143November 28, 2024