Uma Metodologia Flexível de Desenvolvimento de Barreiras para Modelos de Linguagem Grandes Aplicada à Detecção de Tópicos Fora de Contexto
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection
November 20, 2024
Autores: Gabriel Chua, Shing Yee Chan, Shaun Khoo
cs.AI
Resumo
Grandes Modelos de Linguagem são propensos a uso fora do tópico, onde os usuários podem solicitar a esses modelos que realizem tarefas além de seu escopo pretendido. As atuais salvaguardas, que muitas vezes dependem de exemplos curados ou classificadores personalizados, sofrem com altas taxas de falsos positivos, limitada adaptabilidade e a impraticabilidade de exigir dados do mundo real que não estão disponíveis em pré-produção. Neste artigo, apresentamos uma metodologia flexível e sem dados para o desenvolvimento de salvaguardas que aborda esses desafios. Ao definir minuciosamente o espaço do problema qualitativamente e passar isso para um LLM para gerar prompts diversos, construímos um conjunto de dados sintético para avaliar e treinar salvaguardas fora do tópico que superam abordagens heurísticas. Além disso, ao enquadrar a tarefa como classificar se a solicitação do usuário é relevante em relação à solicitação do sistema, nossas salvaguardas generalizam efetivamente para outras categorias de uso indevido, incluindo jailbreak e prompts prejudiciais. Por fim, contribuímos ainda mais para o campo disponibilizando em código aberto tanto o conjunto de dados sintético quanto os modelos de salvaguarda fora do tópico, fornecendo recursos valiosos para o desenvolvimento de salvaguardas em ambientes de pré-produção e apoiando pesquisas futuras e o desenvolvimento da segurança de LLM.
English
Large Language Models are prone to off-topic misuse, where users may prompt
these models to perform tasks beyond their intended scope. Current guardrails,
which often rely on curated examples or custom classifiers, suffer from high
false-positive rates, limited adaptability, and the impracticality of requiring
real-world data that is not available in pre-production. In this paper, we
introduce a flexible, data-free guardrail development methodology that
addresses these challenges. By thoroughly defining the problem space
qualitatively and passing this to an LLM to generate diverse prompts, we
construct a synthetic dataset to benchmark and train off-topic guardrails that
outperform heuristic approaches. Additionally, by framing the task as
classifying whether the user prompt is relevant with respect to the system
prompt, our guardrails effectively generalize to other misuse categories,
including jailbreak and harmful prompts. Lastly, we further contribute to the
field by open-sourcing both the synthetic dataset and the off-topic guardrail
models, providing valuable resources for developing guardrails in
pre-production environments and supporting future research and development in
LLM safety.Summary
AI-Generated Summary