ChatPaper.aiChatPaper

Llama Guard: Sistema de Proteção de Entrada-Saída Baseado em LLM para Conversas Humano-IA

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

December 7, 2023
Autores: Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa
cs.AI

Resumo

Apresentamos o Llama Guard, um modelo de salvaguarda de entrada-saída baseado em LLM (Large Language Model) voltado para casos de uso de conversação Humano-IA. Nosso modelo incorpora uma taxonomia de riscos de segurança, uma ferramenta valiosa para categorizar um conjunto específico de riscos de segurança encontrados em prompts de LLM (ou seja, classificação de prompts). Essa taxonomia também é fundamental para classificar as respostas geradas por LLMs a esses prompts, um processo que chamamos de classificação de respostas. Para fins de classificação tanto de prompts quanto de respostas, reunimos meticulosamente um conjunto de dados de alta qualidade. O Llama Guard, um modelo Llama2-7b ajustado por instruções em nosso conjunto de dados coletado, embora de volume reduzido, demonstra um desempenho robusto em benchmarks existentes, como o conjunto de dados OpenAI Moderation Evaluation e o ToxicChat, onde seu desempenho iguala ou supera o de ferramentas de moderação de conteúdo atualmente disponíveis. O Llama Guard funciona como um modelo de linguagem, realizando classificação multiclasse e gerando pontuações de decisão binária. Além disso, o ajuste fino por instruções do Llama Guard permite a personalização de tarefas e a adaptação de formatos de saída. Esse recurso amplia as capacidades do modelo, como permitir o ajuste das categorias da taxonomia para alinhar-se com casos de uso específicos e facilitar o prompting zero-shot ou few-shot com diversas taxonomias na entrada. Estamos disponibilizando os pesos do modelo Llama Guard e incentivamos os pesquisadores a desenvolvê-los e adaptá-los ainda mais para atender às necessidades em evolução da comunidade em relação à segurança da IA.
English
We introduce Llama Guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing a specific set of safety risks found in LLM prompts (i.e., prompt classification). This taxonomy is also instrumental in classifying the responses generated by LLMs to these prompts, a process we refer to as response classification. For the purpose of both prompt and response classification, we have meticulously gathered a dataset of high quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our collected dataset, albeit low in volume, demonstrates strong performance on existing benchmarks such as the OpenAI Moderation Evaluation dataset and ToxicChat, where its performance matches or exceeds that of currently available content moderation tools. Llama Guard functions as a language model, carrying out multi-class classification and generating binary decision scores. Furthermore, the instruction fine-tuning of Llama Guard allows for the customization of tasks and the adaptation of output formats. This feature enhances the model's capabilities, such as enabling the adjustment of taxonomy categories to align with specific use cases, and facilitating zero-shot or few-shot prompting with diverse taxonomies at the input. We are making Llama Guard model weights available and we encourage researchers to further develop and adapt them to meet the evolving needs of the community for AI safety.
PDF81February 8, 2026