Гибкая методология разработки ограничителей для крупных языковых моделей, применяемая для обнаружения неактуальных запросов.
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection
November 20, 2024
Авторы: Gabriel Chua, Shing Yee Chan, Shaun Khoo
cs.AI
Аннотация
Большие языковые модели подвержены неправильному использованию вне темы, когда пользователи могут побуждать эти модели выполнять задачи, выходящие за рамки их предназначения. Существующие ограничения, которые часто опираются на отобранные примеры или специальные классификаторы, страдают от высоких показателей ложноположительных результатов, ограниченной адаптивности и невозможности требовать реальных данных, которые недоступны на этапе предпроизводства. В данной статье мы представляем гибкую методологию разработки ограничений без использования данных, которая решает эти проблемы. Путем тщательного определения качественного пространства проблемы и передачи этого LLM для генерации разнообразных подсказок мы создаем синтетический набор данных для оценки и обучения ограничений вне темы, превосходящих эвристические подходы. Кроме того, представляя задачу как классификацию того, является ли подсказка пользователя соответствующей системной подсказке, наши ограничения эффективно обобщаются на другие категории неправильного использования, включая обход защиты и вредоносные подсказки. Наконец, мы дополнительно вносим вклад в область, предоставляя в открытый доступ как синтетический набор данных, так и модели ограничений вне темы, обеспечивая ценные ресурсы для разработки ограничений в средах предпроизводства и поддержки будущих исследований и разработок в области безопасности LLM.
English
Large Language Models are prone to off-topic misuse, where users may prompt
these models to perform tasks beyond their intended scope. Current guardrails,
which often rely on curated examples or custom classifiers, suffer from high
false-positive rates, limited adaptability, and the impracticality of requiring
real-world data that is not available in pre-production. In this paper, we
introduce a flexible, data-free guardrail development methodology that
addresses these challenges. By thoroughly defining the problem space
qualitatively and passing this to an LLM to generate diverse prompts, we
construct a synthetic dataset to benchmark and train off-topic guardrails that
outperform heuristic approaches. Additionally, by framing the task as
classifying whether the user prompt is relevant with respect to the system
prompt, our guardrails effectively generalize to other misuse categories,
including jailbreak and harmful prompts. Lastly, we further contribute to the
field by open-sourcing both the synthetic dataset and the off-topic guardrail
models, providing valuable resources for developing guardrails in
pre-production environments and supporting future research and development in
LLM safety.Summary
AI-Generated Summary