Llama Guard: LLM-ориентированная система защиты ввода-вывода для диалогов между человеком и ИИ
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
December 7, 2023
Авторы: Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa
cs.AI
Аннотация
Мы представляем Llama Guard — модель защиты ввода-вывода на основе языковой модели (LLM), ориентированную на сценарии взаимодействия человека с ИИ. Наша модель включает таксономию рисков безопасности, ценный инструмент для классификации определённого набора рисков, встречающихся в запросах к LLM (т.е. классификация запросов). Эта таксономия также играет ключевую роль в классификации ответов, генерируемых LLM на такие запросы, — процесс, который мы называем классификацией ответов. Для целей как классификации запросов, так и ответов мы тщательно собрали высококачественный набор данных. Llama Guard, модель Llama2-7b, дообученная на наших данных, несмотря на их небольшой объём, демонстрирует высокую производительность на существующих бенчмарках, таких как OpenAI Moderation Evaluation dataset и ToxicChat, где её результаты соответствуют или превосходят доступные инструменты модерации контента. Llama Guard функционирует как языковая модель, выполняя многоклассовую классификацию и генерируя бинарные оценки решений. Более того, дообучение Llama Guard на инструкциях позволяет настраивать задачи и адаптировать форматы вывода. Эта особенность расширяет возможности модели, например, позволяя корректировать категории таксономии в соответствии с конкретными сценариями использования, а также поддерживать нулевой или малошотовый подход с использованием различных таксономий на входе. Мы предоставляем веса модели Llama Guard и призываем исследователей развивать и адаптировать их для удовлетворения растущих потребностей сообщества в безопасности ИИ.
English
We introduce Llama Guard, an LLM-based input-output safeguard model geared
towards Human-AI conversation use cases. Our model incorporates a safety risk
taxonomy, a valuable tool for categorizing a specific set of safety risks found
in LLM prompts (i.e., prompt classification). This taxonomy is also
instrumental in classifying the responses generated by LLMs to these prompts, a
process we refer to as response classification. For the purpose of both prompt
and response classification, we have meticulously gathered a dataset of high
quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our
collected dataset, albeit low in volume, demonstrates strong performance on
existing benchmarks such as the OpenAI Moderation Evaluation dataset and
ToxicChat, where its performance matches or exceeds that of currently available
content moderation tools. Llama Guard functions as a language model, carrying
out multi-class classification and generating binary decision scores.
Furthermore, the instruction fine-tuning of Llama Guard allows for the
customization of tasks and the adaptation of output formats. This feature
enhances the model's capabilities, such as enabling the adjustment of taxonomy
categories to align with specific use cases, and facilitating zero-shot or
few-shot prompting with diverse taxonomies at the input. We are making Llama
Guard model weights available and we encourage researchers to further develop
and adapt them to meet the evolving needs of the community for AI safety.