EVOREFUSE : Optimisation évolutive des prompts pour l'évaluation et l'atténuation de la sur-réfutation des LLM face aux instructions pseudo-malveillantes
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
May 29, 2025
Auteurs: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
cs.AI
Résumé
Les grands modèles de langage (LLMs) refusent fréquemment de répondre à des instructions pseudo-malveillantes : des requêtes d'entrée sémantiquement inoffensives qui provoquent des refus inutiles des LLMs en raison d'un alignement de sécurité trop conservateur, ce qui nuit considérablement à l'expérience utilisateur. La collecte de telles instructions est cruciale pour évaluer et atténuer les refus excessifs, mais les méthodes existantes de curation d'instructions, comme la création manuelle ou la réécriture d'instructions, manquent soit de scalabilité, soit ne parviennent pas à produire des prompts suffisamment diversifiés et efficaces pour induire des refus. Pour remédier à ces limitations, nous introduisons EVOREFUSE, une approche d'optimisation de prompts qui génère des instructions pseudo-malveillantes diversifiées suscitant systématiquement des refus confiants à travers les LLMs. EVOREFUSE utilise un algorithme évolutionnaire explorant l'espace des instructions dans des directions plus variées que les méthodes existantes via des stratégies de mutation et de recombinaison, et fait évoluer itérativement des instructions de départ pour maximiser la borne inférieure de l'évidence sur la probabilité de refus des LLMs. En utilisant EVOREFUSE, nous créons deux nouveaux jeux de données : EVOREFUSE-TEST, un benchmark de 582 instructions pseudo-malveillantes qui surpasse le meilleur benchmark existant avec un taux de déclenchement de refus moyen supérieur de 140,41 % sur 9 LLMs, une diversité lexicale accrue de 34,86 % et des scores de confiance des réponses des LLMs améliorés de 40,03 % ; et EVOREFUSE-ALIGN, qui fournit 3 000 instructions pseudo-malveillantes avec des réponses pour l'entraînement supervisé et basé sur les préférences en matière d'alignement. LLAMA3.1-8B-INSTRUCT, finement ajusté de manière supervisée sur EVOREFUSE-ALIGN, réalise jusqu'à 14,31 % de refus excessifs en moins que les modèles entraînés sur le deuxième meilleur jeu de données d'alignement, sans compromettre la sécurité. Notre analyse avec EVOREFUSE-TEST révèle que les modèles déclenchent des refus excessifs en se concentrant trop sur des mots-clés sensibles tout en ignorant le contexte global.
English
Large language models (LLMs) frequently refuse to respond to pseudo-malicious
instructions: semantically harmless input queries triggering unnecessary LLM
refusals due to conservative safety alignment, significantly impairing user
experience. Collecting such instructions is crucial for evaluating and
mitigating over-refusals, but existing instruction curation methods, like
manual creation or instruction rewriting, either lack scalability or fail to
produce sufficiently diverse and effective refusal-inducing prompts. To address
these limitations, we introduce EVOREFUSE, a prompt optimization approach that
generates diverse pseudo-malicious instructions consistently eliciting
confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm
exploring the instruction space in more diverse directions than existing
methods via mutation strategies and recombination, and iteratively evolves seed
instructions to maximize evidence lower bound on LLM refusal probability. Using
EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582
pseudo-malicious instructions that outperforms the next-best benchmark with
140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater
lexical diversity, and 40.03% improved LLM response confidence scores; and
EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with
responses for supervised and preference-based alignment training.
LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to
14.31% fewer over-refusals than models trained on the second-best alignment
dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals
models trigger over-refusals by overly focusing on sensitive keywords while
ignoring broader context.