EVOREFUSE: Evolutionäre Prompt-Optimierung zur Bewertung und Minderung von übermäßiger Ablehnung durch LLMs gegenüber pseudo-bösartigen Anweisungen

papers.abstract

Große Sprachmodelle (LLMs) verweigern häufig die Reaktion auf pseudo-bösartige Anweisungen: semantisch harmlose Eingabeanfragen, die unnötige Ablehnungen durch LLMs aufgrund konservativer Sicherheitsausrichtung auslösen, was die Benutzererfahrung erheblich beeinträchtigt. Die Sammlung solcher Anweisungen ist entscheidend für die Bewertung und Minderung von Überablehnungen, aber bestehende Methoden zur Anweisungskuration, wie manuelle Erstellung oder Anweisungsüberarbeitung, mangelt es entweder an Skalierbarkeit oder sie scheitern daran, ausreichend vielfältige und effektive Ablehnungsauslöser zu erzeugen. Um diese Einschränkungen zu überwinden, führen wir EVOREFUSE ein, einen Prompt-Optimierungsansatz, der diverse pseudo-bösartige Anweisungen generiert, die konsistent Ablehnungen über verschiedene LLMs hinweg auslösen. EVOREFUSE verwendet einen evolutionären Algorithmus, der den Anweisungsraum in vielfältigeren Richtungen als bestehende Methoden durch Mutationsstrategien und Rekombination erkundet und iterativ Ausgangsanweisungen entwickelt, um die untere Evidenzgrenze für die Ablehnungswahrscheinlichkeit von LLMs zu maximieren. Mit EVOREFUSE erstellen wir zwei neuartige Datensätze: EVOREFUSE-TEST, einen Benchmark mit 582 pseudo-bösartigen Anweisungen, der den nächstbesten Benchmark mit einer um 140,41 % höheren durchschnittlichen Ablehnungsauslöserate über 9 LLMs, einer um 34,86 % größeren lexikalischen Vielfalt und einer um 40,03 % verbesserten LLM-Antwortzuverlässigkeit übertrifft; und EVOREFUSE-ALIGN, der 3.000 pseudo-bösartige Anweisungen mit Antworten für überwachtes und präferenzbasiertes Alignment-Training bereitstellt. LLAMA3.1-8B-INSTRUCT, das auf EVOREFUSE-ALIGN überwacht feinabgestimmt wurde, erreicht bis zu 14,31 % weniger Überablehnungen als Modelle, die auf dem zweitbesten Alignment-Datensatz trainiert wurden, ohne die Sicherheit zu beeinträchtigen. Unsere Analyse mit EVOREFUSE-TEST zeigt, dass Modelle Überablehnungen auslösen, indem sie sich übermäßig auf sensible Schlüsselwörter konzentrieren, während sie den breiteren Kontext ignorieren.

English

Large language models (LLMs) frequently refuse to respond to pseudo-malicious instructions: semantically harmless input queries triggering unnecessary LLM refusals due to conservative safety alignment, significantly impairing user experience. Collecting such instructions is crucial for evaluating and mitigating over-refusals, but existing instruction curation methods, like manual creation or instruction rewriting, either lack scalability or fail to produce sufficiently diverse and effective refusal-inducing prompts. To address these limitations, we introduce EVOREFUSE, a prompt optimization approach that generates diverse pseudo-malicious instructions consistently eliciting confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm exploring the instruction space in more diverse directions than existing methods via mutation strategies and recombination, and iteratively evolves seed instructions to maximize evidence lower bound on LLM refusal probability. Using EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582 pseudo-malicious instructions that outperforms the next-best benchmark with 140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater lexical diversity, and 40.03% improved LLM response confidence scores; and EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with responses for supervised and preference-based alignment training. LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to 14.31% fewer over-refusals than models trained on the second-best alignment dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals models trigger over-refusals by overly focusing on sensitive keywords while ignoring broader context.

EVOREFUSE: Evolutionäre Prompt-Optimierung zur Bewertung und Minderung von übermäßiger Ablehnung durch LLMs gegenüber pseudo-bösartigen Anweisungen

EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions

papers.abstract

Support