ChatPaper.aiChatPaper

EVOREFUSE: Эволюционная оптимизация запросов для оценки и снижения чрезмерного отказа LLM на псевдовредоносные инструкции

EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions

May 29, 2025
Авторы: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
cs.AI

Аннотация

Крупные языковые модели (LLM) часто отказываются отвечать на псевдо-вредоносные инструкции: семантически безобидные входные запросы, которые вызывают излишние отказы LLM из-за консервативной настройки на безопасность, что значительно ухудшает пользовательский опыт. Сбор таких инструкций крайне важен для оценки и смягчения чрезмерных отказов, однако существующие методы создания инструкций, такие как ручное составление или переписывание, либо недостаточно масштабируемы, либо не позволяют генерировать достаточно разнообразные и эффективные запросы, вызывающие отказы. Для решения этих проблем мы представляем EVOREFUSE — подход к оптимизации запросов, который генерирует разнообразные псевдо-вредоносные инструкции, стабильно вызывающие уверенные отказы в различных LLM. EVOREFUSE использует эволюционный алгоритм, исследующий пространство инструкций в более разнообразных направлениях, чем существующие методы, за счет стратегий мутации и рекомбинации, и итеративно развивает начальные инструкции для максимизации нижней границы доказательства вероятности отказа LLM. С помощью EVOREFUSE мы создали два новых набора данных: EVOREFUSE-TEST — эталонный набор из 582 псевдо-вредоносных инструкций, который превосходит ближайший эталонный набор с увеличением средней частоты вызова отказов на 140,41% для 9 LLM, на 34,86% большей лексической разнообразием и на 40,03% улучшенными показателями уверенности ответов LLM; и EVOREFUSE-ALIGN, который предоставляет 3000 псевдо-вредоносных инструкций с ответами для обучения с учителем и настройки на основе предпочтений. Модель LLAMA3.1-8B-INSTRUCT, дообученная с учителем на EVOREFUSE-ALIGN, демонстрирует до 14,31% меньше чрезмерных отказов по сравнению с моделями, обученными на втором лучшем наборе данных для настройки, без ущерба для безопасности. Наш анализ с использованием EVOREFUSE-TEST показывает, что модели вызывают чрезмерные отказы, излишне фокусируясь на чувствительных ключевых словах, игнорируя более широкий контекст.
English
Large language models (LLMs) frequently refuse to respond to pseudo-malicious instructions: semantically harmless input queries triggering unnecessary LLM refusals due to conservative safety alignment, significantly impairing user experience. Collecting such instructions is crucial for evaluating and mitigating over-refusals, but existing instruction curation methods, like manual creation or instruction rewriting, either lack scalability or fail to produce sufficiently diverse and effective refusal-inducing prompts. To address these limitations, we introduce EVOREFUSE, a prompt optimization approach that generates diverse pseudo-malicious instructions consistently eliciting confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm exploring the instruction space in more diverse directions than existing methods via mutation strategies and recombination, and iteratively evolves seed instructions to maximize evidence lower bound on LLM refusal probability. Using EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582 pseudo-malicious instructions that outperforms the next-best benchmark with 140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater lexical diversity, and 40.03% improved LLM response confidence scores; and EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with responses for supervised and preference-based alignment training. LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to 14.31% fewer over-refusals than models trained on the second-best alignment dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals models trigger over-refusals by overly focusing on sensitive keywords while ignoring broader context.
PDF22June 10, 2025