Llama Guard: Protección de Entrada-Salida Basada en LLM para Conversaciones Humano-IA

Resumen

Presentamos Llama Guard, un modelo de protección de entrada-salida basado en LLM orientado a casos de uso de conversación Humano-IA. Nuestro modelo incorpora una taxonomía de riesgos de seguridad, una herramienta valiosa para categorizar un conjunto específico de riesgos de seguridad presentes en los prompts de LLM (es decir, clasificación de prompts). Esta taxonomía también es fundamental para clasificar las respuestas generadas por los LLM a estos prompts, un proceso que denominamos clasificación de respuestas. Con el propósito de realizar tanto la clasificación de prompts como de respuestas, hemos recopilado meticulosamente un conjunto de datos de alta calidad. Llama Guard, un modelo Llama2-7b ajustado mediante instrucciones en nuestro conjunto de datos recopilado, aunque de bajo volumen, demuestra un rendimiento sólido en benchmarks existentes como el conjunto de datos de Evaluación de Moderación de OpenAI y ToxicChat, donde su rendimiento iguala o supera al de las herramientas de moderación de contenido actualmente disponibles. Llama Guard funciona como un modelo de lenguaje, realizando clasificación multiclase y generando puntuaciones de decisión binaria. Además, el ajuste fino mediante instrucciones de Llama Guard permite la personalización de tareas y la adaptación de formatos de salida. Esta característica mejora las capacidades del modelo, como permitir el ajuste de las categorías de la taxonomía para alinearse con casos de uso específicos, y facilitar el prompting zero-shot o few-shot con diversas taxonomías en la entrada. Estamos poniendo a disposición los pesos del modelo Llama Guard y alentamos a los investigadores a seguir desarrollándolos y adaptándolos para satisfacer las necesidades en evolución de la comunidad en materia de seguridad de la IA.

English

We introduce Llama Guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing a specific set of safety risks found in LLM prompts (i.e., prompt classification). This taxonomy is also instrumental in classifying the responses generated by LLMs to these prompts, a process we refer to as response classification. For the purpose of both prompt and response classification, we have meticulously gathered a dataset of high quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our collected dataset, albeit low in volume, demonstrates strong performance on existing benchmarks such as the OpenAI Moderation Evaluation dataset and ToxicChat, where its performance matches or exceeds that of currently available content moderation tools. Llama Guard functions as a language model, carrying out multi-class classification and generating binary decision scores. Furthermore, the instruction fine-tuning of Llama Guard allows for the customization of tasks and the adaptation of output formats. This feature enhances the model's capabilities, such as enabling the adjustment of taxonomy categories to align with specific use cases, and facilitating zero-shot or few-shot prompting with diverse taxonomies at the input. We are making Llama Guard model weights available and we encourage researchers to further develop and adapt them to meet the evolving needs of the community for AI safety.

Llama Guard: Protección de Entrada-Salida Basada en LLM para Conversaciones Humano-IA

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

Resumen

Support