Une méthodologie de développement de garde-fous flexible pour les grands modèles de langage, appliquée à la détection de sujets hors-sujet.
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection
November 20, 2024
Auteurs: Gabriel Chua, Shing Yee Chan, Shaun Khoo
cs.AI
Résumé
Les grands modèles de langage sont sujets à des utilisations hors-sujet, où les utilisateurs peuvent inciter ces modèles à effectuer des tâches dépassant leur champ d'application prévu. Les garde-fous actuels, qui reposent souvent sur des exemples sélectionnés ou des classificateurs personnalisés, souffrent de taux élevés de faux positifs, d'une adaptabilité limitée et de l'impraticabilité de nécessiter des données du monde réel qui ne sont pas disponibles en pré-production. Dans cet article, nous introduisons une méthodologie de développement de garde-fous flexible et sans données qui répond à ces défis. En définissant de manière approfondie l'espace du problème qualitativement et en transmettant cela à un LLM pour générer des prompts variés, nous construisons un ensemble de données synthétique pour évaluer et entraîner des garde-fous hors-sujet qui surpassent les approches heuristiques. De plus, en encadrant la tâche comme classifiant si la sollicitation de l'utilisateur est pertinente par rapport à la sollicitation du système, nos garde-fous généralisent efficacement à d'autres catégories de mauvaise utilisation, y compris les sollicitations de jailbreak et nuisibles. Enfin, nous contribuons davantage au domaine en mettant en open source à la fois l'ensemble de données synthétique et les modèles de garde-fous hors-sujet, fournissant des ressources précieuses pour le développement de garde-fous dans des environnements de pré-production et soutenant la recherche et le développement futurs sur la sécurité des LLM.
English
Large Language Models are prone to off-topic misuse, where users may prompt
these models to perform tasks beyond their intended scope. Current guardrails,
which often rely on curated examples or custom classifiers, suffer from high
false-positive rates, limited adaptability, and the impracticality of requiring
real-world data that is not available in pre-production. In this paper, we
introduce a flexible, data-free guardrail development methodology that
addresses these challenges. By thoroughly defining the problem space
qualitatively and passing this to an LLM to generate diverse prompts, we
construct a synthetic dataset to benchmark and train off-topic guardrails that
outperform heuristic approaches. Additionally, by framing the task as
classifying whether the user prompt is relevant with respect to the system
prompt, our guardrails effectively generalize to other misuse categories,
including jailbreak and harmful prompts. Lastly, we further contribute to the
field by open-sourcing both the synthetic dataset and the off-topic guardrail
models, providing valuable resources for developing guardrails in
pre-production environments and supporting future research and development in
LLM safety.Summary
AI-Generated Summary