EVOREFUSE: Otimização Evolutiva de Prompts para Avaliação e Mitigação da Super-Recusa de LLMs a Instruções Pseudo-Maliciosas

Resumo

Modelos de linguagem de grande escala (LLMs) frequentemente se recusam a responder a instruções pseudo-maliciosas: consultas de entrada semanticamente inofensivas que desencadeiam recusas desnecessárias dos LLMs devido a alinhamentos de segurança conservadores, prejudicando significativamente a experiência do usuário. Coletar tais instruções é crucial para avaliar e mitigar recusas excessivas, mas os métodos existentes de curadoria de instruções, como criação manual ou reescrita de instruções, carecem de escalabilidade ou falham em produzir prompts suficientemente diversos e eficazes para induzir recusas. Para abordar essas limitações, introduzimos o EVOREFUSE, uma abordagem de otimização de prompts que gera instruções pseudo-maliciosas diversas que consistentemente eliciam recusas confiantes em LLMs. O EVOREFUSE emprega um algoritmo evolutivo que explora o espaço de instruções em direções mais diversas do que os métodos existentes, por meio de estratégias de mutação e recombinação, e evolui iterativamente instruções iniciais para maximizar o limite inferior de evidência sobre a probabilidade de recusa dos LLMs. Usando o EVOREFUSE, criamos dois novos conjuntos de dados: EVOREFUSE-TEST, um benchmark de 582 instruções pseudo-maliciosas que supera o próximo melhor benchmark com uma taxa média de desencadeamento de recusas 140,41% maior em 9 LLMs, 34,86% maior diversidade lexical e 40,03% de melhoria nas pontuações de confiança das respostas dos LLMs; e EVOREFUSE-ALIGN, que fornece 3.000 instruções pseudo-maliciosas com respostas para treinamento de alinhamento supervisionado e baseado em preferências. O LLAMA3.1-8B-INSTRUCT ajustado supervisionadamente no EVOREFUSE-ALIGN alcança até 14,31% menos recusas excessivas do que modelos treinados no segundo melhor conjunto de dados de alinhamento, sem comprometer a segurança. Nossa análise com o EVOREFUSE-TEST revela que os modelos desencadeiam recusas excessivas ao focar excessivamente em palavras-chave sensíveis, ignorando o contexto mais amplo.

English

Large language models (LLMs) frequently refuse to respond to pseudo-malicious instructions: semantically harmless input queries triggering unnecessary LLM refusals due to conservative safety alignment, significantly impairing user experience. Collecting such instructions is crucial for evaluating and mitigating over-refusals, but existing instruction curation methods, like manual creation or instruction rewriting, either lack scalability or fail to produce sufficiently diverse and effective refusal-inducing prompts. To address these limitations, we introduce EVOREFUSE, a prompt optimization approach that generates diverse pseudo-malicious instructions consistently eliciting confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm exploring the instruction space in more diverse directions than existing methods via mutation strategies and recombination, and iteratively evolves seed instructions to maximize evidence lower bound on LLM refusal probability. Using EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582 pseudo-malicious instructions that outperforms the next-best benchmark with 140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater lexical diversity, and 40.03% improved LLM response confidence scores; and EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with responses for supervised and preference-based alignment training. LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to 14.31% fewer over-refusals than models trained on the second-best alignment dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals models trigger over-refusals by overly focusing on sensitive keywords while ignoring broader context.

EVOREFUSE: Otimização Evolutiva de Prompts para Avaliação e Mitigação da Super-Recusa de LLMs a Instruções Pseudo-Maliciosas

EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions

Resumo

Support