Uma Metodologia Flexível de Desenvolvimento de Barreiras para Modelos de Linguagem Grandes Aplicada à Detecção de Tópicos Fora de Contexto

Resumo

Grandes Modelos de Linguagem são propensos a uso fora do tópico, onde os usuários podem solicitar a esses modelos que realizem tarefas além de seu escopo pretendido. As atuais salvaguardas, que muitas vezes dependem de exemplos curados ou classificadores personalizados, sofrem com altas taxas de falsos positivos, limitada adaptabilidade e a impraticabilidade de exigir dados do mundo real que não estão disponíveis em pré-produção. Neste artigo, apresentamos uma metodologia flexível e sem dados para o desenvolvimento de salvaguardas que aborda esses desafios. Ao definir minuciosamente o espaço do problema qualitativamente e passar isso para um LLM para gerar prompts diversos, construímos um conjunto de dados sintético para avaliar e treinar salvaguardas fora do tópico que superam abordagens heurísticas. Além disso, ao enquadrar a tarefa como classificar se a solicitação do usuário é relevante em relação à solicitação do sistema, nossas salvaguardas generalizam efetivamente para outras categorias de uso indevido, incluindo jailbreak e prompts prejudiciais. Por fim, contribuímos ainda mais para o campo disponibilizando em código aberto tanto o conjunto de dados sintético quanto os modelos de salvaguarda fora do tópico, fornecendo recursos valiosos para o desenvolvimento de salvaguardas em ambientes de pré-produção e apoiando pesquisas futuras e o desenvolvimento da segurança de LLM.

English

Large Language Models are prone to off-topic misuse, where users may prompt these models to perform tasks beyond their intended scope. Current guardrails, which often rely on curated examples or custom classifiers, suffer from high false-positive rates, limited adaptability, and the impracticality of requiring real-world data that is not available in pre-production. In this paper, we introduce a flexible, data-free guardrail development methodology that addresses these challenges. By thoroughly defining the problem space qualitatively and passing this to an LLM to generate diverse prompts, we construct a synthetic dataset to benchmark and train off-topic guardrails that outperform heuristic approaches. Additionally, by framing the task as classifying whether the user prompt is relevant with respect to the system prompt, our guardrails effectively generalize to other misuse categories, including jailbreak and harmful prompts. Lastly, we further contribute to the field by open-sourcing both the synthetic dataset and the off-topic guardrail models, providing valuable resources for developing guardrails in pre-production environments and supporting future research and development in LLM safety.

Uma Metodologia Flexível de Desenvolvimento de Barreiras para Modelos de Linguagem Grandes Aplicada à Detecção de Tópicos Fora de Contexto

A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Resumo

Support