ChatPaper.aiChatPaper

Llama Guard: LLM-basierte Eingabe-Ausgabe-Sicherung für Mensch-KI-Gespräche

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

December 7, 2023
Autoren: Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa
cs.AI

Zusammenfassung

Wir stellen Llama Guard vor, ein auf großen Sprachmodellen (LLM) basierendes Sicherheitsmodell für Eingabe-Ausgabe, das auf Anwendungsfälle der Mensch-KI-Kommunikation ausgerichtet ist. Unser Modell integriert eine Sicherheitsrisiko-Taxonomie, ein wertvolles Werkzeug zur Kategorisierung eines spezifischen Satzes von Sicherheitsrisiken, die in LLM-Prompts auftreten (d.h. Prompt-Klassifizierung). Diese Taxonomie ist auch entscheidend für die Klassifizierung der von LLMs generierten Antworten auf diese Prompts, ein Prozess, den wir als Antwort-Klassifizierung bezeichnen. Für die Zwecke sowohl der Prompt- als auch der Antwort-Klassifizierung haben wir sorgfältig einen qualitativ hochwertigen Datensatz zusammengestellt. Llama Guard, ein Llama2-7b-Modell, das auf unserem gesammelten Datensatz instruktionsfeinabgestimmt wurde, zeigt trotz des geringen Umfangs starke Leistungen auf bestehenden Benchmarks wie dem OpenAI Moderation Evaluation-Datensatz und ToxicChat, wo seine Leistung die der derzeit verfügbaren Inhaltsmoderationstools erreicht oder übertrifft. Llama Guard fungiert als Sprachmodell, das Multi-Klass-Klassifizierung durchführt und binäre Entscheidungswerte generiert. Darüber hinaus ermöglicht die Instruktionsfeinabstimmung von Llama Guard die Anpassung von Aufgaben und die Anpassung von Ausgabeformaten. Diese Funktion erweitert die Fähigkeiten des Modells, wie z.B. die Anpassung von Taxonomiekategorien, um sie an spezifische Anwendungsfälle anzupassen, und die Erleichterung von Zero-Shot- oder Few-Shot-Prompting mit verschiedenen Taxonomien am Eingang. Wir stellen die Modellgewichte von Llama Guard zur Verfügung und ermutigen Forscher, sie weiterzuentwickeln und anzupassen, um den sich entwickelnden Anforderungen der Gemeinschaft an KI-Sicherheit gerecht zu werden.
English
We introduce Llama Guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing a specific set of safety risks found in LLM prompts (i.e., prompt classification). This taxonomy is also instrumental in classifying the responses generated by LLMs to these prompts, a process we refer to as response classification. For the purpose of both prompt and response classification, we have meticulously gathered a dataset of high quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our collected dataset, albeit low in volume, demonstrates strong performance on existing benchmarks such as the OpenAI Moderation Evaluation dataset and ToxicChat, where its performance matches or exceeds that of currently available content moderation tools. Llama Guard functions as a language model, carrying out multi-class classification and generating binary decision scores. Furthermore, the instruction fine-tuning of Llama Guard allows for the customization of tasks and the adaptation of output formats. This feature enhances the model's capabilities, such as enabling the adjustment of taxonomy categories to align with specific use cases, and facilitating zero-shot or few-shot prompting with diverse taxonomies at the input. We are making Llama Guard model weights available and we encourage researchers to further develop and adapt them to meet the evolving needs of the community for AI safety.
PDF81December 15, 2024