EVOREFUSE: 의사 악성 명령에 대한 대형 언어 모델의 과도한 거부 평가 및 완화를 위한 진화적 프롬프트 최적화
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions
May 29, 2025
저자: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
cs.AI
초록
대형 언어 모델(LLMs)은 종종 유사 악성 지시에 응답을 거부합니다: 보수적인 안전 정렬로 인해 의미론적으로 무해한 입력 질문이 불필요한 LLM 거부를 유발하여 사용자 경험을 크게 저하시킵니다. 이러한 지시를 수집하는 것은 과도한 거부를 평가하고 완화하는 데 중요하지만, 기존의 지시 수집 방법(예: 수동 생성 또는 지시 재작성)은 확장성이 부족하거나 충분히 다양하고 효과적인 거부 유발 프롬프트를 생성하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 EVOREFUSE를 소개합니다. 이는 다양한 유사 악성 지시를 생성하여 LLMs에서 일관되게 확신에 찬 거부를 유발하는 프롬프트 최적화 접근법입니다. EVOREFUSE는 변이 전략과 재조합을 통해 기존 방법보다 더 다양한 방향으로 지시 공간을 탐색하는 진화 알고리즘을 사용하며, LLM 거부 확률에 대한 증거 하한을 최대화하기 위해 시드 지시를 반복적으로 진화시킵니다. EVOREFUSE를 사용하여, 우리는 두 가지 새로운 데이터셋을 생성했습니다: EVOREFUSE-TEST는 582개의 유사 악성 지시로 구성된 벤치마크로, 9개의 LLMs에서 평균 거부 유발률이 다음으로 우수한 벤치마크보다 140.41% 더 높고, 어휘 다양성이 34.86% 더 크며, LLM 응답 신뢰도 점수가 40.03% 개선되었습니다; 그리고 EVOREFUSE-ALIGN은 지도 학습 및 선호 기반 정렬 훈련을 위한 응답과 함께 3,000개의 유사 악성 지시를 제공합니다. EVOREFUSE-ALIGN에서 지도 학습으로 미세 조정된 LLAMA3.1-8B-INSTRUCT는 두 번째로 우수한 정렬 데이터셋에서 훈련된 모델보다 최대 14.31% 더 적은 과도한 거부를 보이면서도 안전성을 저해하지 않습니다. EVOREFUSE-TEST를 사용한 우리의 분석은 모델이 민감한 키워드에 지나치게 집중하면서 더 넓은 맥락을 무시함으로써 과도한 거부를 유발한다는 것을 보여줍니다.
English
Large language models (LLMs) frequently refuse to respond to pseudo-malicious
instructions: semantically harmless input queries triggering unnecessary LLM
refusals due to conservative safety alignment, significantly impairing user
experience. Collecting such instructions is crucial for evaluating and
mitigating over-refusals, but existing instruction curation methods, like
manual creation or instruction rewriting, either lack scalability or fail to
produce sufficiently diverse and effective refusal-inducing prompts. To address
these limitations, we introduce EVOREFUSE, a prompt optimization approach that
generates diverse pseudo-malicious instructions consistently eliciting
confident refusals across LLMs. EVOREFUSE employs an evolutionary algorithm
exploring the instruction space in more diverse directions than existing
methods via mutation strategies and recombination, and iteratively evolves seed
instructions to maximize evidence lower bound on LLM refusal probability. Using
EVOREFUSE, we create two novel datasets: EVOREFUSE-TEST, a benchmark of 582
pseudo-malicious instructions that outperforms the next-best benchmark with
140.41% higher average refusal triggering rate across 9 LLMs, 34.86% greater
lexical diversity, and 40.03% improved LLM response confidence scores; and
EVOREFUSE-ALIGN, which provides 3,000 pseudo-malicious instructions with
responses for supervised and preference-based alignment training.
LLAMA3.1-8B-INSTRUCT supervisedly fine-tuned on EVOREFUSE-ALIGN achieves up to
14.31% fewer over-refusals than models trained on the second-best alignment
dataset, without compromising safety. Our analysis with EVOREFUSE-TEST reveals
models trigger over-refusals by overly focusing on sensitive keywords while
ignoring broader context.