ShieldGemma: Moderazione dei Contenuti con Intelligenza Artificiale Generativa Basata su Gemma
ShieldGemma: Generative AI Content Moderation Based on Gemma
July 31, 2024
Autori: Wenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez
cs.AI
Abstract
Presentiamo ShieldGemma, una suite completa di modelli di moderazione dei contenuti basati su LLM (Large Language Models) sviluppati su Gemma2. Questi modelli offrono previsioni robuste e all'avanguardia sui rischi legati alla sicurezza, coprendo tipologie chiave di danni (contenuti sessualmente espliciti, contenuti pericolosi, molestie, discorsi d'odio) sia negli input degli utenti che negli output generati da LLM. Valutando sia benchmark pubblici che interni, dimostriamo prestazioni superiori rispetto ai modelli esistenti, come Llama Guard (+10,8\% AU-PRC sui benchmark pubblici) e WildCard (+4,3\%). Inoltre, presentiamo una pipeline innovativa di curatela dei dati basata su LLM, adattabile a una varietà di task legati alla sicurezza e non solo. Abbiamo dimostrato una forte capacità di generalizzazione per modelli addestrati principalmente su dati sintetici. Rilasciando ShieldGemma, forniamo una risorsa preziosa per la comunità di ricerca, promuovendo la sicurezza degli LLM e abilitando la creazione di soluzioni di moderazione dei contenuti più efficaci per gli sviluppatori.
English
We present ShieldGemma, a comprehensive suite of LLM-based safety content
moderation models built upon Gemma2. These models provide robust,
state-of-the-art predictions of safety risks across key harm types (sexually
explicit, dangerous content, harassment, hate speech) in both user input and
LLM-generated output. By evaluating on both public and internal benchmarks, we
demonstrate superior performance compared to existing models, such as Llama
Guard (+10.8\% AU-PRC on public benchmarks) and WildCard (+4.3\%).
Additionally, we present a novel LLM-based data curation pipeline, adaptable to
a variety of safety-related tasks and beyond. We have shown strong
generalization performance for model trained mainly on synthetic data. By
releasing ShieldGemma, we provide a valuable resource to the research
community, advancing LLM safety and enabling the creation of more effective
content moderation solutions for developers.