PrimeGuard: LLMs Seguros e Úteis através de Roteamento sem Ajuste
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing
July 23, 2024
Autores: Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan
cs.AI
Resumo
A implantação de modelos de linguagem (LMs) exige que as saídas sejam de alta qualidade e estejam em conformidade com as diretrizes de segurança. Embora os Guardrails de Tempo de Inferência (ITG) ofereçam soluções que direcionam as distribuições de saída do modelo para a conformidade, observamos que os métodos atuais têm dificuldade em equilibrar a segurança com a utilidade. Métodos ITG que lidam com consultas não conformes de forma segura apresentam menor utilidade, enquanto aqueles que priorizam a utilidade comprometem a segurança. Referimo-nos a esse trade-off como o "imposto do guardrail", análogo ao imposto de alinhamento. Para lidar com isso, propomos o PrimeGuard, um novo método ITG que utiliza fluxo de controle estruturado.
O PrimeGuard direciona solicitações para diferentes auto-inicializações do LM com instruções variadas, aproveitando suas capacidades inerentes de seguir instruções e aprendizado em contexto. Nosso método sem ajuste dinamicamente compila diretrizes do designer do sistema para cada consulta. Construímos e disponibilizamos o safe-eval, um benchmark de segurança de equipe vermelha diversificado. Avaliações extensivas demonstram que o PrimeGuard, sem ajustes finos, supera o imposto do guardrail ao (1) aumentar significativamente a resistência a ataques de jailbreak iterativos e (2) alcançar resultados de ponta em guardrails de segurança, enquanto (3) mantém pontuações de utilidade de modelos ajustados para alinhamento. Avaliações extensivas demonstram que o PrimeGuard, sem ajustes finos, supera todas as linhas de base concorrentes e supera o imposto do guardrail ao melhorar a fração de respostas seguras de 61% para 97% e aumentar as pontuações médias de utilidade de 4,17 para 4,29 nos maiores modelos, enquanto reduz a taxa de sucesso de ataques de 100% para 8%.
A implementação do PrimeGuard está disponível em https://github.com/dynamofl/PrimeGuard e o conjunto de dados safe-eval está disponível em https://huggingface.co/datasets/dynamoai/safe_eval.
English
Deploying language models (LMs) necessitates outputs to be both high-quality
and compliant with safety guidelines. Although Inference-Time Guardrails (ITG)
offer solutions that shift model output distributions towards compliance, we
find that current methods struggle in balancing safety with helpfulness. ITG
Methods that safely address non-compliant queries exhibit lower helpfulness
while those that prioritize helpfulness compromise on safety. We refer to this
trade-off as the guardrail tax, analogous to the alignment tax. To address
this, we propose PrimeGuard, a novel ITG method that utilizes structured
control flow.
PrimeGuard routes requests to different self-instantiations of the LM with
varying instructions, leveraging its inherent instruction-following
capabilities and in-context learning. Our tuning-free approach dynamically
compiles system-designer guidelines for each query. We construct and release
safe-eval, a diverse red-team safety benchmark. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax
by (1) significantly increasing resistance to iterative jailbreak attacks and
(2) achieving state-of-the-art results in safety guardrailing while (3)
matching helpfulness scores of alignment-tuned models. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, outperforms all competing
baselines and overcomes the guardrail tax by improving the fraction of safe
responses from 61% to 97% and increasing average helpfulness scores from 4.17
to 4.29 on the largest models, while reducing attack success rate from 100% to
8%.
PrimeGuard implementation is available at
https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at
https://huggingface.co/datasets/dynamoai/safe_eval.