EVOREFUSE: Ottimizzazione Evolutiva dei Prompt per la Valutazione e Mitigazione del Sovra-Rifiuto da parte di LLM alle Istruzioni Pseudo-Maliziose
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
May 29, 2025
Autori: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
cs.AI
Abstract
I grandi modelli linguistici (LLM) spesso rifiutano di rispondere a istruzioni pseudo-maliziose: query di input semanticamente innocue che innescano rifiuti non necessari da parte degli LLM a causa di un allineamento di sicurezza eccessivamente conservativo, compromettendo significativamente l'esperienza dell'utente. Raccogliere tali istruzioni è cruciale per valutare e mitigare i rifiuti eccessivi, ma i metodi esistenti di curatela delle istruzioni, come la creazione manuale o la riscrittura delle istruzioni, mancano di scalabilità o non riescono a produrre prompt sufficientemente diversificati ed efficaci nell'indurre rifiuti. Per affrontare queste limitazioni, introduciamo EVOREFUSE, un approccio di ottimizzazione dei prompt che genera istruzioni pseudo-maliziose diversificate in grado di suscitare costantemente rifiuti sicuri negli LLM. EVOREFUSE utilizza un algoritmo evolutivo che esplora lo spazio delle istruzioni in direzioni più diversificate rispetto ai metodi esistenti, attraverso strategie di mutazione e ricombinazione, e evolve iterativamente le istruzioni di partenza per massimizzare il limite inferiore dell'evidenza sulla probabilità di rifiuto degli LLM. Utilizzando EVOREFUSE, abbiamo creato due nuovi dataset: EVOREFUSE-TEST, un benchmark di 582 istruzioni pseudo-maliziose che supera il benchmark successivo con un tasso medio di innesco di rifiuti più alto del 140,41% su 9 LLM, una diversità lessicale maggiore del 34,86% e punteggi di confidenza delle risposte degli LLM migliorati del 40,03%; e EVOREFUSE-ALIGN, che fornisce 3.000 istruzioni pseudo-maliziose con risposte per l'addestramento supervisionato e basato su preferenze. LLAMA3.1-8B-INSTRUCT, addestrato in modo supervisionato su EVOREFUSE-ALIGN, ottiene fino al 14,31% in meno di rifiuti eccessivi rispetto ai modelli addestrati sul secondo miglior dataset di allineamento, senza compromettere la sicurezza. La nostra analisi con EVOREFUSE-TEST rivela che i modelli innescano rifiuti eccessivi concentrandosi troppo su parole chiave sensibili mentre ignorano il contesto più ampio.
English
Large language models (LLMs) frequently refuse to respond to pseudo-malicious
instructions: semantically harmless input queries triggering unnecessary LLM
refusals due to conservative safety alignment, significantly impairing user
experience. Collecting such instructions is crucial for evaluating and
mitigating over-refusals, but existing instruction curation methods, like
manual creation or instruction rewriting, either lack scalability or fail to
produce sufficiently diverse and effective refusal-inducing prompts. To address
these limitations, we introduce EVOREFUSE, a prompt optimization approach that
generates diverse pseudo-malicious instructions consistently eliciting
confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm
exploring the instruction space in more diverse directions than existing
methods via mutation strategies and recombination, and iteratively evolves seed
instructions to maximize evidence lower bound on LLM refusal probability. Using
EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582
pseudo-malicious instructions that outperforms the next-best benchmark with
140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater
lexical diversity, and 40.03% improved LLM response confidence scores; and
EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with
responses for supervised and preference-based alignment training.
LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to
14.31% fewer over-refusals than models trained on the second-best alignment
dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals
models trigger over-refusals by overly focusing on sensitive keywords while
ignoring broader context.