Llama Guard: Sistema di Protezione Input-Output basato su LLM per Conversazioni Umano-AI
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
December 7, 2023
Autori: Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa
cs.AI
Abstract
Presentiamo Llama Guard, un modello di salvaguardia input-output basato su LLM (Large Language Model) orientato ai casi d'uso di conversazione Uomo-AI. Il nostro modello incorpora una tassonomia dei rischi di sicurezza, uno strumento prezioso per categorizzare un insieme specifico di rischi di sicurezza presenti nei prompt degli LLM (ovvero, la classificazione dei prompt). Questa tassonomia è anche fondamentale per classificare le risposte generate dagli LLM a questi prompt, un processo che definiamo come classificazione delle risposte. Ai fini sia della classificazione dei prompt che delle risposte, abbiamo raccolto meticolosamente un dataset di alta qualità. Llama Guard, un modello Llama2-7b ottimizzato tramite istruzioni sul nostro dataset raccolto, sebbene di volume ridotto, dimostra prestazioni solide su benchmark esistenti come il dataset OpenAI Moderation Evaluation e ToxicChat, dove le sue prestazioni eguagliano o superano quelle degli attuali strumenti di moderazione dei contenuti. Llama Guard funziona come un modello linguistico, eseguendo una classificazione multi-classe e generando punteggi decisionali binari. Inoltre, l'ottimizzazione tramite istruzioni di Llama Guard consente la personalizzazione dei compiti e l'adattamento dei formati di output. Questa funzionalità potenzia le capacità del modello, come consentire l'adeguamento delle categorie della tassonomia per allinearsi a casi d'uso specifici e facilitare il prompting zero-shot o few-shot con diverse tassonomie in input. Rendiamo disponibili i pesi del modello Llama Guard e incoraggiamo i ricercatori a svilupparli e adattarli ulteriormente per soddisfare le esigenze in evoluzione della comunità per la sicurezza dell'AI.
English
We introduce Llama Guard, an LLM-based input-output safeguard model geared
towards Human-AI conversation use cases. Our model incorporates a safety risk
taxonomy, a valuable tool for categorizing a specific set of safety risks found
in LLM prompts (i.e., prompt classification). This taxonomy is also
instrumental in classifying the responses generated by LLMs to these prompts, a
process we refer to as response classification. For the purpose of both prompt
and response classification, we have meticulously gathered a dataset of high
quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our
collected dataset, albeit low in volume, demonstrates strong performance on
existing benchmarks such as the OpenAI Moderation Evaluation dataset and
ToxicChat, where its performance matches or exceeds that of currently available
content moderation tools. Llama Guard functions as a language model, carrying
out multi-class classification and generating binary decision scores.
Furthermore, the instruction fine-tuning of Llama Guard allows for the
customization of tasks and the adaptation of output formats. This feature
enhances the model's capabilities, such as enabling the adjustment of taxonomy
categories to align with specific use cases, and facilitating zero-shot or
few-shot prompting with diverse taxonomies at the input. We are making Llama
Guard model weights available and we encourage researchers to further develop
and adapt them to meet the evolving needs of the community for AI safety.