ChatPaper.aiChatPaper

Eine flexible Methodik zur Entwicklung von Leitplanken für große Sprachmodelle angewendet auf die Erkennung von nicht zum Thema passenden Anfragen

A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

November 20, 2024
Autoren: Gabriel Chua, Shing Yee Chan, Shaun Khoo
cs.AI

Zusammenfassung

Große Sprachmodelle sind anfällig für Missbrauch durch Off-Topic-Verwendung, bei der Benutzer diese Modelle dazu veranlassen können, Aufgaben außerhalb ihres beabsichtigten Anwendungsbereichs auszuführen. Aktuelle Sicherheitsvorkehrungen, die oft auf kuratierten Beispielen oder benutzerdefinierten Klassifikatoren beruhen, leiden unter hohen Fehlalarmraten, begrenzter Anpassungsfähigkeit und der Unpraktikabilität, realweltliche Daten zu verlangen, die nicht in der Vorproduktion verfügbar sind. In diesem Papier stellen wir eine flexible, datenfreie Methodik zur Entwicklung von Sicherheitsvorkehrungen vor, die diese Herausforderungen angeht. Indem wir den Problembereich qualitativ gründlich definieren und dies einem LLM übergeben, um vielfältige Anfragen zu generieren, konstruieren wir einen synthetischen Datensatz, um Off-Topic-Sicherheitsvorkehrungen zu benchmarken und zu trainieren, die heuristische Ansätze übertreffen. Darüber hinaus, indem wir die Aufgabe als Klassifizierung einrahmen, ob die Benutzeranfrage in Bezug auf die Systemanfrage relevant ist, generalisieren unsere Sicherheitsvorkehrungen effektiv auf andere Missbrauchskategorien, einschließlich Jailbreak und schädlicher Anfragen. Schließlich tragen wir weiterhin zum Feld bei, indem wir sowohl den synthetischen Datensatz als auch die Off-Topic-Sicherheitsvorrichtungsmodelle als Open Source bereitstellen, wertvolle Ressourcen zur Entwicklung von Sicherheitsvorkehrungen in Vorproduktionsumgebungen und zur Unterstützung zukünftiger Forschung und Entwicklung in der LLM-Sicherheit.
English
Large Language Models are prone to off-topic misuse, where users may prompt these models to perform tasks beyond their intended scope. Current guardrails, which often rely on curated examples or custom classifiers, suffer from high false-positive rates, limited adaptability, and the impracticality of requiring real-world data that is not available in pre-production. In this paper, we introduce a flexible, data-free guardrail development methodology that addresses these challenges. By thoroughly defining the problem space qualitatively and passing this to an LLM to generate diverse prompts, we construct a synthetic dataset to benchmark and train off-topic guardrails that outperform heuristic approaches. Additionally, by framing the task as classifying whether the user prompt is relevant with respect to the system prompt, our guardrails effectively generalize to other misuse categories, including jailbreak and harmful prompts. Lastly, we further contribute to the field by open-sourcing both the synthetic dataset and the off-topic guardrail models, providing valuable resources for developing guardrails in pre-production environments and supporting future research and development in LLM safety.

Summary

AI-Generated Summary

PDF232November 25, 2024