Granitwächter

papers.abstract

Wir stellen die Granite Guardian-Modelle vor, eine Reihe von Schutzmechanismen, die entwickelt wurden, um Risikofeststellungen für Eingaben und Antworten bereitzustellen, um eine sichere und verantwortungsbewusste Nutzung in Kombination mit jedem großen Sprachmodell (LLM) zu ermöglichen. Diese Modelle bieten umfassende Abdeckung über mehrere Risikodimensionen hinweg, einschließlich sozialer Voreingenommenheit, Obszönitäten, Gewalt, sexuellen Inhalten, unethischem Verhalten, Jailbreaking und Halluzinationsrisiken wie Kontextrelevanz, Fundiertheit und Antwortrelevanz für die Generierung mit abgerufenen Informationen (RAG). Trainiert auf einem einzigartigen Datensatz, der menschliche Annotationen aus verschiedenen Quellen und synthetische Daten kombiniert, adressieren die Granite Guardian-Modelle Risiken, die typischerweise von traditionellen Risikoerkennungsmodellen übersehen werden, wie Jailbreaks und RAG-spezifische Probleme. Mit AUC-Werten von 0,871 bzw. 0,854 bei schädlichen Inhalten und RAG-Halluzinationsbezogenen Benchmarks ist Granite Guardian das allgemeinste und wettbewerbsfähigste Modell, das in diesem Bereich verfügbar ist. Als Open-Source veröffentlicht, zielt Granite Guardian darauf ab, die verantwortungsbewusste KI-Entwicklung in der Community zu fördern. https://github.com/ibm-granite/granite-guardian

English

We introduce the Granite Guardian models, a suite of safeguards designed to provide risk detection for prompts and responses, enabling safe and responsible use in combination with any large language model (LLM). These models offer comprehensive coverage across multiple risk dimensions, including social bias, profanity, violence, sexual content, unethical behavior, jailbreaking, and hallucination-related risks such as context relevance, groundedness, and answer relevance for retrieval-augmented generation (RAG). Trained on a unique dataset combining human annotations from diverse sources and synthetic data, Granite Guardian models address risks typically overlooked by traditional risk detection models, such as jailbreaks and RAG-specific issues. With AUC scores of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks respectively, Granite Guardian is the most generalizable and competitive model available in the space. Released as open-source, Granite Guardian aims to promote responsible AI development across the community. https://github.com/ibm-granite/granite-guardian