Een Flexibele Methodologie voor de Ontwikkeling van Grote Taalmodellen Guardrails Toegepast op het Detecteren van Off-Topic Prompts
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection
November 20, 2024
Auteurs: Gabriel Chua, Shing Yee Chan, Shaun Khoo
cs.AI
Samenvatting
Grote Taalmodellen zijn vatbaar voor misbruik buiten het onderwerp, waarbij gebruikers deze modellen kunnen aansporen om taken uit te voeren die buiten hun beoogde scope vallen. Huidige beveiligingsmaatregelen, die vaak steunen op samengestelde voorbeelden of aangepaste classificatoren, kampen met hoge fout-positieve percentages, beperkte aanpasbaarheid en de onpraktische eis om real-world data te vereisen die niet beschikbaar is in de pre-productie. In dit artikel introduceren we een flexibele, data-vrije methodologie voor de ontwikkeling van beveiligingsmaatregelen die deze uitdagingen aanpakt. Door het probleemgebied kwalitatief grondig te definiëren en dit aan een Groot Taalmodel door te geven om diverse aansturingen te genereren, construeren we een synthetische dataset om beveiligingsmaatregelen tegen off-topic gebruik te benchmarken en trainen die beter presteren dan heuristische benaderingen. Bovendien, door de taak te kaderen als het classificeren of de gebruikersaansturing relevant is ten opzichte van de systeemaansturing, generaliseren onze beveiligingsmaatregelen effectief naar andere vormen van misbruik, waaronder jailbreak en schadelijke aansturingen. Ten slotte dragen we verder bij aan het vakgebied door zowel de synthetische dataset als de off-topic beveiligingsmaatregelmodellen open-source te maken, waardoor waardevolle bronnen worden geboden voor het ontwikkelen van beveiligingsmaatregelen in pre-productieomgevingen en het ondersteunen van toekomstig onderzoek en ontwikkeling op het gebied van veiligheid van Grote Taalmodellen.
English
Large Language Models are prone to off-topic misuse, where users may prompt
these models to perform tasks beyond their intended scope. Current guardrails,
which often rely on curated examples or custom classifiers, suffer from high
false-positive rates, limited adaptability, and the impracticality of requiring
real-world data that is not available in pre-production. In this paper, we
introduce a flexible, data-free guardrail development methodology that
addresses these challenges. By thoroughly defining the problem space
qualitatively and passing this to an LLM to generate diverse prompts, we
construct a synthetic dataset to benchmark and train off-topic guardrails that
outperform heuristic approaches. Additionally, by framing the task as
classifying whether the user prompt is relevant with respect to the system
prompt, our guardrails effectively generalize to other misuse categories,
including jailbreak and harmful prompts. Lastly, we further contribute to the
field by open-sourcing both the synthetic dataset and the off-topic guardrail
models, providing valuable resources for developing guardrails in
pre-production environments and supporting future research and development in
LLM safety.Summary
AI-Generated Summary