Guardián de Granito
Granite Guardian
December 10, 2024
Autores: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
cs.AI
Resumen
Presentamos los modelos Guardian de Granito, un conjunto de salvaguardias diseñadas para proporcionar detección de riesgos para estímulos y respuestas, permitiendo un uso seguro y responsable en combinación con cualquier modelo de lenguaje grande (LLM, por sus siglas en inglés). Estos modelos ofrecen una cobertura integral en múltiples dimensiones de riesgo, incluyendo sesgo social, lenguaje soez, violencia, contenido sexual, comportamiento no ético, jailbreaking y riesgos relacionados con alucinaciones como relevancia de contexto, fundamentación y relevancia de respuesta para la generación aumentada por recuperación (RAG, por sus siglas en inglés). Entrenados en un conjunto de datos único que combina anotaciones humanas de diversas fuentes y datos sintéticos, los modelos Guardian de Granito abordan riesgos generalmente pasados por alto por modelos tradicionales de detección de riesgos, como jailbreaks y problemas específicos de RAG. Con puntuaciones de AUC de 0.871 y 0.854 en contenido dañino y puntos de referencia relacionados con alucinaciones de RAG respectivamente, Guardian de Granito es el modelo más generalizable y competitivo disponible en el espacio. Publicado como código abierto, Guardian de Granito tiene como objetivo promover el desarrollo de IA responsable en toda la comunidad.
English
We introduce the Granite Guardian models, a suite of safeguards designed to
provide risk detection for prompts and responses, enabling safe and responsible
use in combination with any large language model (LLM). These models offer
comprehensive coverage across multiple risk dimensions, including social bias,
profanity, violence, sexual content, unethical behavior, jailbreaking, and
hallucination-related risks such as context relevance, groundedness, and answer
relevance for retrieval-augmented generation (RAG). Trained on a unique dataset
combining human annotations from diverse sources and synthetic data, Granite
Guardian models address risks typically overlooked by traditional risk
detection models, such as jailbreaks and RAG-specific issues. With AUC scores
of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks
respectively, Granite Guardian is the most generalizable and competitive model
available in the space. Released as open-source, Granite Guardian aims to
promote responsible AI development across the community.
https://github.com/ibm-granite/granite-guardianSummary
AI-Generated Summary