ChatPaper.aiChatPaper

Granieten Bewaker

Granite Guardian

December 10, 2024
Auteurs: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
cs.AI

Samenvatting

We introduceren de Granite Guardian modellen, een reeks beveiligingsmaatregelen ontworpen om risicodetectie te bieden voor prompts en reacties, waardoor veilig en verantwoord gebruik in combinatie met elk groot taalmodel (LLM) mogelijk is. Deze modellen bieden uitgebreide dekking over meerdere risicodimensies, waaronder sociale vooringenomenheid, grof taalgebruik, geweld, seksuele inhoud, onethisch gedrag, jailbreaking, en hallucinatiegerelateerde risico's zoals contextrelevantie, gegrondheid, en antwoordrelevantie voor retrieval-augmented generation (RAG). Getraind op een unieke dataset die menselijke annotaties van diverse bronnen en synthetische data combineert, pakken de Granite Guardian modellen risico's aan die doorgaans over het hoofd worden gezien door traditionele risicodetectiemodellen, zoals jailbreaks en RAG-specifieke kwesties. Met AUC-scores van respectievelijk 0.871 en 0.854 op schadelijke inhoud en RAG-hallucinatiegerelateerde benchmarks, is Granite Guardian het meest generaliseerbare en competitieve model dat beschikbaar is in deze ruimte. Vrijgegeven als open-source, heeft Granite Guardian als doel verantwoorde AI-ontwikkeling binnen de gemeenschap te bevorderen.
English
We introduce the Granite Guardian models, a suite of safeguards designed to provide risk detection for prompts and responses, enabling safe and responsible use in combination with any large language model (LLM). These models offer comprehensive coverage across multiple risk dimensions, including social bias, profanity, violence, sexual content, unethical behavior, jailbreaking, and hallucination-related risks such as context relevance, groundedness, and answer relevance for retrieval-augmented generation (RAG). Trained on a unique dataset combining human annotations from diverse sources and synthetic data, Granite Guardian models address risks typically overlooked by traditional risk detection models, such as jailbreaks and RAG-specific issues. With AUC scores of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks respectively, Granite Guardian is the most generalizable and competitive model available in the space. Released as open-source, Granite Guardian aims to promote responsible AI development across the community. https://github.com/ibm-granite/granite-guardian
PDF182December 11, 2024