Una Metodología Flexible para el Desarrollo de Barreras de Protección de Modelos de Lenguaje Grandes aplicada a la Detección de Temas Fuera de Contexto.
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection
November 20, 2024
Autores: Gabriel Chua, Shing Yee Chan, Shaun Khoo
cs.AI
Resumen
Los Modelos de Lenguaje Grandes son propensos al uso fuera de tema, donde los usuarios pueden incitar a estos modelos a realizar tareas más allá de su alcance previsto. Las actuales salvaguardias, que a menudo se basan en ejemplos seleccionados o clasificadores personalizados, sufren de altas tasas de falsos positivos, limitada adaptabilidad y la impracticabilidad de requerir datos del mundo real que no están disponibles en preproducción. En este documento, presentamos una metodología flexible y sin datos para el desarrollo de salvaguardias que aborda estos desafíos. Al definir exhaustivamente el espacio del problema cualitativamente y pasar esto a un Modelo de Lenguaje Grande para generar diversas indicaciones, construimos un conjunto de datos sintético para evaluar y entrenar salvaguardias fuera de tema que superan a los enfoques heurísticos. Además, al enmarcar la tarea como clasificar si la indicación del usuario es relevante con respecto a la indicación del sistema, nuestras salvaguardias generalizan eficazmente a otras categorías de uso indebido, incluidas las indicaciones de desbloqueo y dañinas. Por último, contribuimos aún más al campo al hacer de código abierto tanto el conjunto de datos sintéticos como los modelos de salvaguardia fuera de tema, proporcionando recursos valiosos para el desarrollo de salvaguardias en entornos de preproducción y apoyando la investigación y desarrollo futuro en seguridad de Modelos de Lenguaje Grandes.
English
Large Language Models are prone to off-topic misuse, where users may prompt
these models to perform tasks beyond their intended scope. Current guardrails,
which often rely on curated examples or custom classifiers, suffer from high
false-positive rates, limited adaptability, and the impracticality of requiring
real-world data that is not available in pre-production. In this paper, we
introduce a flexible, data-free guardrail development methodology that
addresses these challenges. By thoroughly defining the problem space
qualitatively and passing this to an LLM to generate diverse prompts, we
construct a synthetic dataset to benchmark and train off-topic guardrails that
outperform heuristic approaches. Additionally, by framing the task as
classifying whether the user prompt is relevant with respect to the system
prompt, our guardrails effectively generalize to other misuse categories,
including jailbreak and harmful prompts. Lastly, we further contribute to the
field by open-sourcing both the synthetic dataset and the off-topic guardrail
models, providing valuable resources for developing guardrails in
pre-production environments and supporting future research and development in
LLM safety.Summary
AI-Generated Summary