ChatPaper.aiChatPaper

Гранитный страж

Granite Guardian

December 10, 2024
Авторы: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
cs.AI

Аннотация

Мы представляем модели Granite Guardian - набор средств защиты, разработанный для обнаружения рисков в запросах и ответах, обеспечивая безопасное и ответственное использование в сочетании с любой крупной моделью языка (LLM). Эти модели предлагают всестороннее покрытие по различным измерениям риска, включая социальный предвзятость, непристойные выражения, насилие, сексуальный контент, недобросовестное поведение, обход защиты и риски, связанные с галлюцинациями, такие как соответствие контексту, обоснованность и актуальность ответа для генерации с увеличением поиска (RAG). Обученные на уникальном наборе данных, объединяющем аннотации людей из различных источников и синтетические данные, модели Granite Guardian решают риски, обычно игнорируемые традиционными моделями обнаружения рисков, такие как обход защиты и проблемы, специфичные для RAG. С показателями AUC 0,871 и 0,854 соответственно по вредному контенту и бенчмаркам, связанным с галлюцинациями RAG, Granite Guardian является наиболее обобщенной и конкурентоспособной моделью, доступной в данной области. Выпущенный в открытый доступ, Granite Guardian нацелен на поощрение ответственного развития искусственного интеллекта в сообществе.
English
We introduce the Granite Guardian models, a suite of safeguards designed to provide risk detection for prompts and responses, enabling safe and responsible use in combination with any large language model (LLM). These models offer comprehensive coverage across multiple risk dimensions, including social bias, profanity, violence, sexual content, unethical behavior, jailbreaking, and hallucination-related risks such as context relevance, groundedness, and answer relevance for retrieval-augmented generation (RAG). Trained on a unique dataset combining human annotations from diverse sources and synthetic data, Granite Guardian models address risks typically overlooked by traditional risk detection models, such as jailbreaks and RAG-specific issues. With AUC scores of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks respectively, Granite Guardian is the most generalizable and competitive model available in the space. Released as open-source, Granite Guardian aims to promote responsible AI development across the community. https://github.com/ibm-granite/granite-guardian

Summary

AI-Generated Summary

PDF182December 11, 2024