Granitwächter
Granite Guardian
December 10, 2024
Autoren: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
cs.AI
Zusammenfassung
Wir stellen die Granite Guardian-Modelle vor, eine Reihe von Schutzmechanismen, die entwickelt wurden, um Risikofeststellungen für Eingaben und Antworten bereitzustellen, um eine sichere und verantwortungsbewusste Nutzung in Kombination mit jedem großen Sprachmodell (LLM) zu ermöglichen. Diese Modelle bieten umfassende Abdeckung über mehrere Risikodimensionen hinweg, einschließlich sozialer Voreingenommenheit, Obszönitäten, Gewalt, sexuellen Inhalten, unethischem Verhalten, Jailbreaking und Halluzinationsrisiken wie Kontextrelevanz, Fundiertheit und Antwortrelevanz für die Generierung mit abgerufenen Informationen (RAG). Trainiert auf einem einzigartigen Datensatz, der menschliche Annotationen aus verschiedenen Quellen und synthetische Daten kombiniert, adressieren die Granite Guardian-Modelle Risiken, die typischerweise von traditionellen Risikoerkennungsmodellen übersehen werden, wie Jailbreaks und RAG-spezifische Probleme. Mit AUC-Werten von 0,871 bzw. 0,854 bei schädlichen Inhalten und RAG-Halluzinationsbezogenen Benchmarks ist Granite Guardian das allgemeinste und wettbewerbsfähigste Modell, das in diesem Bereich verfügbar ist. Als Open-Source veröffentlicht, zielt Granite Guardian darauf ab, die verantwortungsbewusste KI-Entwicklung in der Community zu fördern.
https://github.com/ibm-granite/granite-guardian
English
We introduce the Granite Guardian models, a suite of safeguards designed to
provide risk detection for prompts and responses, enabling safe and responsible
use in combination with any large language model (LLM). These models offer
comprehensive coverage across multiple risk dimensions, including social bias,
profanity, violence, sexual content, unethical behavior, jailbreaking, and
hallucination-related risks such as context relevance, groundedness, and answer
relevance for retrieval-augmented generation (RAG). Trained on a unique dataset
combining human annotations from diverse sources and synthetic data, Granite
Guardian models address risks typically overlooked by traditional risk
detection models, such as jailbreaks and RAG-specific issues. With AUC scores
of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks
respectively, Granite Guardian is the most generalizable and competitive model
available in the space. Released as open-source, Granite Guardian aims to
promote responsible AI development across the community.
https://github.com/ibm-granite/granite-guardianSummary
AI-Generated Summary