ChatPaper.aiChatPaper

Llama Guard : Système de protection entrée-sortie basé sur un LLM pour les conversations humain-IA

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

December 7, 2023
Auteurs: Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa
cs.AI

Résumé

Nous présentons Llama Guard, un modèle de protection entrée-sortie basé sur un LLM (modèle de langage) conçu pour les cas d'utilisation de conversations Humain-IA. Notre modèle intègre une taxonomie des risques de sécurité, un outil précieux pour catégoriser un ensemble spécifique de risques de sécurité présents dans les prompts des LLM (c'est-à-dire la classification des prompts). Cette taxonomie est également essentielle pour classer les réponses générées par les LLM à ces prompts, un processus que nous appelons classification des réponses. À des fins de classification des prompts et des réponses, nous avons méticuleusement constitué un ensemble de données de haute qualité. Llama Guard, un modèle Llama2-7b affiné par instruction sur notre ensemble de données collecté, bien que de volume limité, démontre des performances solides sur des benchmarks existants tels que le jeu de données OpenAI Moderation Evaluation et ToxicChat, où ses performances égalent ou surpassent celles des outils de modération de contenu actuellement disponibles. Llama Guard fonctionne comme un modèle de langage, effectuant une classification multi-classes et générant des scores de décision binaires. De plus, l'affinage par instruction de Llama Guard permet la personnalisation des tâches et l'adaptation des formats de sortie. Cette fonctionnalité renforce les capacités du modèle, comme permettre l'ajustement des catégories de taxonomie pour s'aligner sur des cas d'utilisation spécifiques, et faciliter le prompting zero-shot ou few-shot avec des taxonomies variées en entrée. Nous rendons les poids du modèle Llama Guard disponibles et encourageons les chercheurs à les développer et les adapter davantage pour répondre aux besoins évolutifs de la communauté en matière de sécurité de l'IA.
English
We introduce Llama Guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing a specific set of safety risks found in LLM prompts (i.e., prompt classification). This taxonomy is also instrumental in classifying the responses generated by LLMs to these prompts, a process we refer to as response classification. For the purpose of both prompt and response classification, we have meticulously gathered a dataset of high quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our collected dataset, albeit low in volume, demonstrates strong performance on existing benchmarks such as the OpenAI Moderation Evaluation dataset and ToxicChat, where its performance matches or exceeds that of currently available content moderation tools. Llama Guard functions as a language model, carrying out multi-class classification and generating binary decision scores. Furthermore, the instruction fine-tuning of Llama Guard allows for the customization of tasks and the adaptation of output formats. This feature enhances the model's capabilities, such as enabling the adjustment of taxonomy categories to align with specific use cases, and facilitating zero-shot or few-shot prompting with diverse taxonomies at the input. We are making Llama Guard model weights available and we encourage researchers to further develop and adapt them to meet the evolving needs of the community for AI safety.
PDF81December 15, 2024