EVOREFUSE: Evolutionäre Prompt-Optimierung zur Bewertung und Minderung von übermäßiger Ablehnung durch LLMs gegenüber pseudo-bösartigen Anweisungen
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
May 29, 2025
Autoren: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) verweigern häufig die Reaktion auf pseudo-bösartige Anweisungen: semantisch harmlose Eingabeanfragen, die unnötige Ablehnungen durch LLMs aufgrund konservativer Sicherheitsausrichtung auslösen, was die Benutzererfahrung erheblich beeinträchtigt. Die Sammlung solcher Anweisungen ist entscheidend für die Bewertung und Minderung von Überablehnungen, aber bestehende Methoden zur Anweisungskuration, wie manuelle Erstellung oder Anweisungsüberarbeitung, mangelt es entweder an Skalierbarkeit oder sie scheitern daran, ausreichend vielfältige und effektive Ablehnungsauslöser zu erzeugen. Um diese Einschränkungen zu überwinden, führen wir EVOREFUSE ein, einen Prompt-Optimierungsansatz, der diverse pseudo-bösartige Anweisungen generiert, die konsistent Ablehnungen über verschiedene LLMs hinweg auslösen. EVOREFUSE verwendet einen evolutionären Algorithmus, der den Anweisungsraum in vielfältigeren Richtungen als bestehende Methoden durch Mutationsstrategien und Rekombination erkundet und iterativ Ausgangsanweisungen entwickelt, um die untere Evidenzgrenze für die Ablehnungswahrscheinlichkeit von LLMs zu maximieren. Mit EVOREFUSE erstellen wir zwei neuartige Datensätze: EVOREFUSE-TEST, einen Benchmark mit 582 pseudo-bösartigen Anweisungen, der den nächstbesten Benchmark mit einer um 140,41 % höheren durchschnittlichen Ablehnungsauslöserate über 9 LLMs, einer um 34,86 % größeren lexikalischen Vielfalt und einer um 40,03 % verbesserten LLM-Antwortzuverlässigkeit übertrifft; und EVOREFUSE-ALIGN, der 3.000 pseudo-bösartige Anweisungen mit Antworten für überwachtes und präferenzbasiertes Alignment-Training bereitstellt. LLAMA3.1-8B-INSTRUCT, das auf EVOREFUSE-ALIGN überwacht feinabgestimmt wurde, erreicht bis zu 14,31 % weniger Überablehnungen als Modelle, die auf dem zweitbesten Alignment-Datensatz trainiert wurden, ohne die Sicherheit zu beeinträchtigen. Unsere Analyse mit EVOREFUSE-TEST zeigt, dass Modelle Überablehnungen auslösen, indem sie sich übermäßig auf sensible Schlüsselwörter konzentrieren, während sie den breiteren Kontext ignorieren.
English
Large language models (LLMs) frequently refuse to respond to pseudo-malicious
instructions: semantically harmless input queries triggering unnecessary LLM
refusals due to conservative safety alignment, significantly impairing user
experience. Collecting such instructions is crucial for evaluating and
mitigating over-refusals, but existing instruction curation methods, like
manual creation or instruction rewriting, either lack scalability or fail to
produce sufficiently diverse and effective refusal-inducing prompts. To address
these limitations, we introduce EVOREFUSE, a prompt optimization approach that
generates diverse pseudo-malicious instructions consistently eliciting
confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm
exploring the instruction space in more diverse directions than existing
methods via mutation strategies and recombination, and iteratively evolves seed
instructions to maximize evidence lower bound on LLM refusal probability. Using
EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582
pseudo-malicious instructions that outperforms the next-best benchmark with
140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater
lexical diversity, and 40.03% improved LLM response confidence scores; and
EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with
responses for supervised and preference-based alignment training.
LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to
14.31% fewer over-refusals than models trained on the second-best alignment
dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals
models trigger over-refusals by overly focusing on sensitive keywords while
ignoring broader context.