EVOREFUSE: Evolutionaire Promptoptimalisatie voor Evaluatie en Mitigatie van Overmatige Weigering door LLM's bij Pseudo-Kwaadaardige Instructies
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
May 29, 2025
Auteurs: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
cs.AI
Samenvatting
Grote taalmodellen (LLMs) weigeren vaak te reageren op pseudo-kwaadaardige instructies: semantisch onschadelijke invoervragen die onnodige weigeringen van LLMs veroorzaken vanwege conservatieve veiligheidsafstemming, wat de gebruikerservaring aanzienlijk schaadt. Het verzamelen van dergelijke instructies is cruciaal voor het evalueren en verminderen van overmatige weigeringen, maar bestaande methoden voor het samenstellen van instructies, zoals handmatige creatie of het herschrijven van instructies, missen schaalbaarheid of slagen er niet in voldoende diverse en effectieve prompts te produceren die weigeringen uitlokken. Om deze beperkingen aan te pakken, introduceren we EVOREFUSE, een promptoptimalisatiebenadering die diverse pseudo-kwaadaardige instructies genereert die consistent zelfverzekerde weigeringen uitlokken bij LLMs. EVOREFUSE maakt gebruik van een evolutionair algoritme dat de instructieruimte in meer diverse richtingen verkent dan bestaande methoden via mutatiestrategieën en recombinatie, en evolueert seed-instructies iteratief om de ondergrens van het bewijs op de weigeringskans van LLMs te maximaliseren. Met EVOREFUSE hebben we twee nieuwe datasets gecreëerd: EVOREFUSE-TEST, een benchmark van 582 pseudo-kwaadaardige instructies die de op een na beste benchmark overtreft met een 140,41% hoger gemiddeld weigeringspercentage over 9 LLMs, 34,86% grotere lexicale diversiteit en 40,03% verbeterde LLM-responsvertrouwensscores; en EVOREFUSE-ALIGN, dat 3.000 pseudo-kwaadaardige instructies met reacties biedt voor supervised en voorkeursgebaseerde afstemmingstraining. LLAMA3.1-8B-INSTRUCT, supervised gefinetuned op EVOREFUSE-ALIGN, bereikt tot 14,31% minder overmatige weigeringen dan modellen getraind op de op een na beste afstemmingsdataset, zonder in te leveren op veiligheid. Onze analyse met EVOREFUSE-TEST onthult dat modellen overmatige weigeringen triggeren door te veel te focussen op gevoelige trefwoorden terwijl ze de bredere context negeren.
English
Large language models (LLMs) frequently refuse to respond to pseudo-malicious
instructions: semantically harmless input queries triggering unnecessary LLM
refusals due to conservative safety alignment, significantly impairing user
experience. Collecting such instructions is crucial for evaluating and
mitigating over-refusals, but existing instruction curation methods, like
manual creation or instruction rewriting, either lack scalability or fail to
produce sufficiently diverse and effective refusal-inducing prompts. To address
these limitations, we introduce EVOREFUSE, a prompt optimization approach that
generates diverse pseudo-malicious instructions consistently eliciting
confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm
exploring the instruction space in more diverse directions than existing
methods via mutation strategies and recombination, and iteratively evolves seed
instructions to maximize evidence lower bound on LLM refusal probability. Using
EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582
pseudo-malicious instructions that outperforms the next-best benchmark with
140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater
lexical diversity, and 40.03% improved LLM response confidence scores; and
EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with
responses for supervised and preference-based alignment training.
LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to
14.31% fewer over-refusals than models trained on the second-best alignment
dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals
models trigger over-refusals by overly focusing on sensitive keywords while
ignoring broader context.