PrimeGuard: LLMs Seguros y Útiles a Través de Enrutamiento Sin Ajuste.
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing
July 23, 2024
Autores: Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan
cs.AI
Resumen
Desplegar modelos de lenguaje (LMs) requiere que las salidas sean de alta calidad y cumplan con las pautas de seguridad. Aunque las Barreras de Protección en Tiempo de Inferencia (ITG) ofrecen soluciones que desplazan las distribuciones de salida del modelo hacia el cumplimiento, encontramos que los métodos actuales tienen dificultades para equilibrar la seguridad con la utilidad. Los métodos ITG que abordan de manera segura las consultas no conformes muestran una menor utilidad, mientras que aquellos que priorizan la utilidad comprometen la seguridad. Nos referimos a este compromiso como el impuesto de la barrera de protección, análogo al impuesto de alineación. Para abordar esto, proponemos PrimeGuard, un nuevo método ITG que utiliza un flujo de control estructurado.
PrimeGuard dirige las solicitudes a diferentes autoinstanciaciones del LM con instrucciones variables, aprovechando sus capacidades inherentes de seguimiento de instrucciones y aprendizaje en contexto. Nuestro enfoque sin ajuste dinámico compila de forma dinámica las pautas del diseñador del sistema para cada consulta. Construimos y lanzamos safe-eval, un conjunto de pruebas de seguridad de equipo rojo diverso. Evaluaciones extensas demuestran que PrimeGuard, sin ajustes finos, supera el impuesto de la barrera de protección al (1) aumentar significativamente la resistencia a los ataques de jailbreak iterativos y (2) lograr resultados de vanguardia en la protección de barreras de seguridad, mientras (3) iguala los puntajes de utilidad de los modelos ajustados a la alineación. Evaluaciones extensas demuestran que PrimeGuard, sin ajustes finos, supera a todos los baselines competidores y supera el impuesto de la barrera de protección al mejorar la fracción de respuestas seguras del 61% al 97% y aumentar los puntajes promedio de utilidad de 4.17 a 4.29 en los modelos más grandes, al tiempo que reduce la tasa de éxito de los ataques del 100% al 8%.
La implementación de PrimeGuard está disponible en https://github.com/dynamofl/PrimeGuard y el conjunto de datos safe-eval está disponible en https://huggingface.co/datasets/dynamoai/safe_eval.
English
Deploying language models (LMs) necessitates outputs to be both high-quality
and compliant with safety guidelines. Although Inference-Time Guardrails (ITG)
offer solutions that shift model output distributions towards compliance, we
find that current methods struggle in balancing safety with helpfulness. ITG
Methods that safely address non-compliant queries exhibit lower helpfulness
while those that prioritize helpfulness compromise on safety. We refer to this
trade-off as the guardrail tax, analogous to the alignment tax. To address
this, we propose PrimeGuard, a novel ITG method that utilizes structured
control flow.
PrimeGuard routes requests to different self-instantiations of the LM with
varying instructions, leveraging its inherent instruction-following
capabilities and in-context learning. Our tuning-free approach dynamically
compiles system-designer guidelines for each query. We construct and release
safe-eval, a diverse red-team safety benchmark. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax
by (1) significantly increasing resistance to iterative jailbreak attacks and
(2) achieving state-of-the-art results in safety guardrailing while (3)
matching helpfulness scores of alignment-tuned models. Extensive evaluations
demonstrate that PrimeGuard, without fine-tuning, outperforms all competing
baselines and overcomes the guardrail tax by improving the fraction of safe
responses from 61% to 97% and increasing average helpfulness scores from 4.17
to 4.29 on the largest models, while reducing attack success rate from 100% to
8%.
PrimeGuard implementation is available at
https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at
https://huggingface.co/datasets/dynamoai/safe_eval.Summary
AI-Generated Summary