ChatPaper.aiChatPaper

말하지 않는 기술: 언어 모델의 맥락적 비순응성

The Art of Saying No: Contextual Noncompliance in Language Models

July 2, 2024
저자: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
cs.AI

초록

채팅 기반 언어 모델은 도움을 주기 위해 설계되었지만, 모든 사용자 요청에 응답해서는 안 됩니다. 기존 연구 대부분이 주로 "안전하지 않은" 질문에 대한 거부에 초점을 맞추고 있지만, 우리는 이러한 비준수(noncompliance)의 범위를 확장해야 한다고 주장합니다. 본 연구에서는 언제 그리고 어떻게 모델이 사용자 요청에 응답하지 말아야 하는지를 설명하는 포괄적인 맥락적 비준수 분류 체계를 소개합니다. 우리의 분류 체계는 안전하지 않은 요청 외에도 불완전한, 지원되지 않는, 불확실한, 그리고 인간적인 요청 등 다양한 범주를 아우릅니다. 언어 모델의 비준수 능력을 테스트하기 위해, 이 분류 체계를 활용하여 1000개의 비준수 프롬프트로 구성된 새로운 평가 도구를 개발했습니다. 그 결과, GPT-4와 같은 기존 모델들이 이전에 충분히 연구되지 않은 특정 범주에서 상당히 높은 준수율을 보이며, 최대 30%의 요청을 잘못 준수하는 것으로 나타났습니다. 이러한 격차를 해결하기 위해, 우리는 합성적으로 생성된 요청과 예상되는 비준수 응답을 포함한 훈련 데이터셋을 사용하여 다양한 훈련 전략을 탐구했습니다. 실험 결과, 지시 튜닝된 모델을 직접 미세 조정하는 것은 과도한 거부와 일반적인 능력 저하를 초래할 수 있지만, 저랭크 어댑터(low rank adapters)와 같은 매개변수 효율적인 방법을 사용하면 적절한 비준수와 다른 능력 사이의 균형을 잘 유지할 수 있음을 확인했습니다.
English
Chat-based language models are designed to be helpful, yet they should not comply with every user request. While most existing work primarily focuses on refusal of "unsafe" queries, we posit that the scope of noncompliance should be broadened. We introduce a comprehensive taxonomy of contextual noncompliance describing when and how models should not comply with user requests. Our taxonomy spans a wide range of categories including incomplete, unsupported, indeterminate, and humanizing requests (in addition to unsafe requests). To test noncompliance capabilities of language models, we use this taxonomy to develop a new evaluation suite of 1000 noncompliance prompts. We find that most existing models show significantly high compliance rates in certain previously understudied categories with models like GPT-4 incorrectly complying with as many as 30% of requests. To address these gaps, we explore different training strategies using a synthetically-generated training set of requests and expected noncompliant responses. Our experiments demonstrate that while direct finetuning of instruction-tuned models can lead to both over-refusal and a decline in general capabilities, using parameter efficient methods like low rank adapters helps to strike a good balance between appropriate noncompliance and other capabilities.

Summary

AI-Generated Summary

PDF42November 28, 2024