ShieldGemma: Gemma 기반 생성형 AI 콘텐츠 조정
ShieldGemma: Generative AI Content Moderation Based on Gemma
July 31, 2024
저자: Wenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez
cs.AI
초록
우리는 Gemma2를 기반으로 구축된 LLM 기반의 포괄적인 안전 콘텐츠 조정 모델 제품군인 ShieldGemma를 소개합니다. 이 모델들은 사용자 입력과 LLM 생성 출력 모두에서 주요 유해 유형(성적 콘텐츠, 위험한 콘텐츠, 괴롭힘, 혐오 발언)에 대한 강력하고 최신의 안전 위험 예측을 제공합니다. 공개 및 내부 벤치마크를 통해 평가한 결과, Llama Guard(공개 벤치마크에서 +10.8% AU-PRC) 및 WildCard(+4.3%)와 같은 기존 모델 대비 우수한 성능을 입증했습니다. 또한, 다양한 안전 관련 작업 및 그 이상에 적응 가능한 새로운 LLM 기반 데이터 큐레이션 파이프라인을 제시합니다. 주로 합성 데이터로 훈련된 모델의 강력한 일반화 성능을 보여주었습니다. ShieldGemma를 공개함으로써, 연구 커뮤니티에 유용한 자원을 제공하고, LLM 안전성을 발전시키며 개발자들이 더 효과적인 콘텐츠 조정 솔루션을 만들 수 있도록 지원합니다.
English
We present ShieldGemma, a comprehensive suite of LLM-based safety content
moderation models built upon Gemma2. These models provide robust,
state-of-the-art predictions of safety risks across key harm types (sexually
explicit, dangerous content, harassment, hate speech) in both user input and
LLM-generated output. By evaluating on both public and internal benchmarks, we
demonstrate superior performance compared to existing models, such as Llama
Guard (+10.8\% AU-PRC on public benchmarks) and WildCard (+4.3\%).
Additionally, we present a novel LLM-based data curation pipeline, adaptable to
a variety of safety-related tasks and beyond. We have shown strong
generalization performance for model trained mainly on synthetic data. By
releasing ShieldGemma, we provide a valuable resource to the research
community, advancing LLM safety and enabling the creation of more effective
content moderation solutions for developers.Summary
AI-Generated Summary