Llama Guard: Sistema di Protezione Input-Output basato su LLM per Conversazioni Umano-AI

Abstract

Presentiamo Llama Guard, un modello di salvaguardia input-output basato su LLM (Large Language Model) orientato ai casi d'uso di conversazione Uomo-AI. Il nostro modello incorpora una tassonomia dei rischi di sicurezza, uno strumento prezioso per categorizzare un insieme specifico di rischi di sicurezza presenti nei prompt degli LLM (ovvero, la classificazione dei prompt). Questa tassonomia è anche fondamentale per classificare le risposte generate dagli LLM a questi prompt, un processo che definiamo come classificazione delle risposte. Ai fini sia della classificazione dei prompt che delle risposte, abbiamo raccolto meticolosamente un dataset di alta qualità. Llama Guard, un modello Llama2-7b ottimizzato tramite istruzioni sul nostro dataset raccolto, sebbene di volume ridotto, dimostra prestazioni solide su benchmark esistenti come il dataset OpenAI Moderation Evaluation e ToxicChat, dove le sue prestazioni eguagliano o superano quelle degli attuali strumenti di moderazione dei contenuti. Llama Guard funziona come un modello linguistico, eseguendo una classificazione multi-classe e generando punteggi decisionali binari. Inoltre, l'ottimizzazione tramite istruzioni di Llama Guard consente la personalizzazione dei compiti e l'adattamento dei formati di output. Questa funzionalità potenzia le capacità del modello, come consentire l'adeguamento delle categorie della tassonomia per allinearsi a casi d'uso specifici e facilitare il prompting zero-shot o few-shot con diverse tassonomie in input. Rendiamo disponibili i pesi del modello Llama Guard e incoraggiamo i ricercatori a svilupparli e adattarli ulteriormente per soddisfare le esigenze in evoluzione della comunità per la sicurezza dell'AI.

English

We introduce Llama Guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing a specific set of safety risks found in LLM prompts (i.e., prompt classification). This taxonomy is also instrumental in classifying the responses generated by LLMs to these prompts, a process we refer to as response classification. For the purpose of both prompt and response classification, we have meticulously gathered a dataset of high quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our collected dataset, albeit low in volume, demonstrates strong performance on existing benchmarks such as the OpenAI Moderation Evaluation dataset and ToxicChat, where its performance matches or exceeds that of currently available content moderation tools. Llama Guard functions as a language model, carrying out multi-class classification and generating binary decision scores. Furthermore, the instruction fine-tuning of Llama Guard allows for the customization of tasks and the adaptation of output formats. This feature enhances the model's capabilities, such as enabling the adjustment of taxonomy categories to align with specific use cases, and facilitating zero-shot or few-shot prompting with diverse taxonomies at the input. We are making Llama Guard model weights available and we encourage researchers to further develop and adapt them to meet the evolving needs of the community for AI safety.

Llama Guard: Sistema di Protezione Input-Output basato su LLM per Conversazioni Umano-AI

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

Abstract

Support