Gardien de Granite
Granite Guardian
December 10, 2024
Auteurs: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
cs.AI
Résumé
Nous présentons les modèles Granite Guardian, un ensemble de sauvegardes conçu pour détecter les risques liés aux requêtes et aux réponses, permettant une utilisation sûre et responsable en combinaison avec tout grand modèle de langage (LLM). Ces modèles offrent une couverture complète sur plusieurs dimensions de risque, incluant les biais sociaux, la vulgarité, la violence, le contenu sexuel, les comportements non éthiques, le jailbreaking, et les risques liés à l'hallucination tels que la pertinence contextuelle, la cohérence et la pertinence de la réponse pour la génération augmentée par récupération (RAG). Entraînés sur un ensemble de données unique combinant des annotations humaines provenant de sources diverses et des données synthétiques, les modèles Granite Guardian abordent les risques généralement négligés par les modèles traditionnels de détection de risques, tels que les jailbreaks et les problèmes spécifiques à la RAG. Avec des scores AUC de 0,871 et 0,854 respectivement sur des référentiels de contenu nuisible et d'hallucination liée à la RAG, Granite Guardian est le modèle le plus généralisable et compétitif disponible dans cet espace. Publié en open source, Granite Guardian vise à promouvoir le développement responsable de l'IA au sein de la communauté.
https://github.com/ibm-granite/granite-guardian
English
We introduce the Granite Guardian models, a suite of safeguards designed to
provide risk detection for prompts and responses, enabling safe and responsible
use in combination with any large language model (LLM). These models offer
comprehensive coverage across multiple risk dimensions, including social bias,
profanity, violence, sexual content, unethical behavior, jailbreaking, and
hallucination-related risks such as context relevance, groundedness, and answer
relevance for retrieval-augmented generation (RAG). Trained on a unique dataset
combining human annotations from diverse sources and synthetic data, Granite
Guardian models address risks typically overlooked by traditional risk
detection models, such as jailbreaks and RAG-specific issues. With AUC scores
of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks
respectively, Granite Guardian is the most generalizable and competitive model
available in the space. Released as open-source, Granite Guardian aims to
promote responsible AI development across the community.
https://github.com/ibm-granite/granite-guardianSummary
AI-Generated Summary