EVOREFUSE: Optimización Evolutiva de Prompts para la Evaluación y Mitigación del Exceso de Rechazo en LLM ante Instrucciones Pseudo-Maliciosas
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
May 29, 2025
Autores: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) frecuentemente se niegan a responder a instrucciones pseudo-maliciosas: consultas de entrada semánticamente inofensivas que desencadenan rechazos innecesarios por parte de los LLMs debido a una alineación de seguridad conservadora, lo que perjudica significativamente la experiencia del usuario. Recopilar dichas instrucciones es crucial para evaluar y mitigar los rechazos excesivos, pero los métodos existentes de curación de instrucciones, como la creación manual o la reescritura de instrucciones, carecen de escalabilidad o no logran producir indicaciones lo suficientemente diversas y efectivas para inducir rechazos. Para abordar estas limitaciones, presentamos EVOREFUSE, un enfoque de optimización de indicaciones que genera instrucciones pseudo-maliciosas diversas que consistentemente provocan rechazos confiados en varios LLMs. EVOREFUSE emplea un algoritmo evolutivo que explora el espacio de instrucciones en direcciones más diversas que los métodos existentes mediante estrategias de mutación y recombinación, y evoluciona iterativamente instrucciones semilla para maximizar el límite inferior de evidencia sobre la probabilidad de rechazo de los LLMs. Utilizando EVOREFUSE, creamos dos nuevos conjuntos de datos: EVOREFUSE-TEST, un punto de referencia de 582 instrucciones pseudo-maliciosas que supera al siguiente mejor punto de referencia con un 140.41% más de tasa promedio de desencadenamiento de rechazos en 9 LLMs, un 34.86% mayor diversidad léxica y un 40.03% de mejora en las puntuaciones de confianza de las respuestas de los LLMs; y EVOREFUSE-ALIGN, que proporciona 3,000 instrucciones pseudo-maliciosas con respuestas para el entrenamiento de alineación supervisado y basado en preferencias. LLAMA3.1-8B-INSTRUCT ajustado supervisadamente en EVOREFUSE-ALIGN logra hasta un 14.31% menos de rechazos excesivos que los modelos entrenados en el segundo mejor conjunto de datos de alineación, sin comprometer la seguridad. Nuestro análisis con EVOREFUSE-TEST revela que los modelos desencadenan rechazos excesivos al enfocarse demasiado en palabras clave sensibles mientras ignoran el contexto más amplio.
English
Large language models (LLMs) frequently refuse to respond to pseudo-malicious
instructions: semantically harmless input queries triggering unnecessary LLM
refusals due to conservative safety alignment, significantly impairing user
experience. Collecting such instructions is crucial for evaluating and
mitigating over-refusals, but existing instruction curation methods, like
manual creation or instruction rewriting, either lack scalability or fail to
produce sufficiently diverse and effective refusal-inducing prompts. To address
these limitations, we introduce EVOREFUSE, a prompt optimization approach that
generates diverse pseudo-malicious instructions consistently eliciting
confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm
exploring the instruction space in more diverse directions than existing
methods via mutation strategies and recombination, and iteratively evolves seed
instructions to maximize evidence lower bound on LLM refusal probability. Using
EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582
pseudo-malicious instructions that outperforms the next-best benchmark with
140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater
lexical diversity, and 40.03% improved LLM response confidence scores; and
EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with
responses for supervised and preference-based alignment training.
LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to
14.31% fewer over-refusals than models trained on the second-best alignment
dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals
models trigger over-refusals by overly focusing on sensitive keywords while
ignoring broader context.