EVOREFUSE: Otimização Evolutiva de Prompts para Avaliação e Mitigação da Super-Recusa de LLMs a Instruções Pseudo-Maliciosas
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
May 29, 2025
Autores: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) frequentemente se recusam a responder a instruções pseudo-maliciosas: consultas de entrada semanticamente inofensivas que desencadeiam recusas desnecessárias dos LLMs devido a alinhamentos de segurança conservadores, prejudicando significativamente a experiência do usuário. Coletar tais instruções é crucial para avaliar e mitigar recusas excessivas, mas os métodos existentes de curadoria de instruções, como criação manual ou reescrita de instruções, carecem de escalabilidade ou falham em produzir prompts suficientemente diversos e eficazes para induzir recusas. Para abordar essas limitações, introduzimos o EVOREFUSE, uma abordagem de otimização de prompts que gera instruções pseudo-maliciosas diversas que consistentemente eliciam recusas confiantes em LLMs. O EVOREFUSE emprega um algoritmo evolutivo que explora o espaço de instruções em direções mais diversas do que os métodos existentes, por meio de estratégias de mutação e recombinação, e evolui iterativamente instruções iniciais para maximizar o limite inferior de evidência sobre a probabilidade de recusa dos LLMs. Usando o EVOREFUSE, criamos dois novos conjuntos de dados: EVOREFUSE-TEST, um benchmark de 582 instruções pseudo-maliciosas que supera o próximo melhor benchmark com uma taxa média de desencadeamento de recusas 140,41% maior em 9 LLMs, 34,86% maior diversidade lexical e 40,03% de melhoria nas pontuações de confiança das respostas dos LLMs; e EVOREFUSE-ALIGN, que fornece 3.000 instruções pseudo-maliciosas com respostas para treinamento de alinhamento supervisionado e baseado em preferências. O LLAMA3.1-8B-INSTRUCT ajustado supervisionadamente no EVOREFUSE-ALIGN alcança até 14,31% menos recusas excessivas do que modelos treinados no segundo melhor conjunto de dados de alinhamento, sem comprometer a segurança. Nossa análise com o EVOREFUSE-TEST revela que os modelos desencadeiam recusas excessivas ao focar excessivamente em palavras-chave sensíveis, ignorando o contexto mais amplo.
English
Large language models (LLMs) frequently refuse to respond to pseudo-malicious
instructions: semantically harmless input queries triggering unnecessary LLM
refusals due to conservative safety alignment, significantly impairing user
experience. Collecting such instructions is crucial for evaluating and
mitigating over-refusals, but existing instruction curation methods, like
manual creation or instruction rewriting, either lack scalability or fail to
produce sufficiently diverse and effective refusal-inducing prompts. To address
these limitations, we introduce EVOREFUSE, a prompt optimization approach that
generates diverse pseudo-malicious instructions consistently eliciting
confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm
exploring the instruction space in more diverse directions than existing
methods via mutation strategies and recombination, and iteratively evolves seed
instructions to maximize evidence lower bound on LLM refusal probability. Using
EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582
pseudo-malicious instructions that outperforms the next-best benchmark with
140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater
lexical diversity, and 40.03% improved LLM response confidence scores; and
EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with
responses for supervised and preference-based alignment training.
LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to
14.31% fewer over-refusals than models trained on the second-best alignment
dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals
models trigger over-refusals by overly focusing on sensitive keywords while
ignoring broader context.