ChatPaper.aiChatPaper

Die Kunst des Nein-Sagens: Kontextuelles Nichtbefolgen in Sprachmodellen

The Art of Saying No: Contextual Noncompliance in Language Models

July 2, 2024
Autoren: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
cs.AI

Zusammenfassung

Chatbasierte Sprachmodelle sind darauf ausgelegt, hilfreich zu sein, sollten jedoch nicht jeder Benutzeranfrage nachkommen. Während die meisten bestehenden Arbeiten sich hauptsächlich auf die Ablehnung von "unsicheren" Anfragen konzentrieren, behaupten wir, dass der Umfang der Nichterfüllung erweitert werden sollte. Wir stellen eine umfassende Taxonomie des kontextbezogenen Nichterfüllens vor, die beschreibt, wann und wie Modelle nicht auf Benutzeranfragen eingehen sollten. Unsere Taxonomie umfasst eine Vielzahl von Kategorien, darunter unvollständige, nicht unterstützte, unbestimmte und humanisierende Anfragen (zusätzlich zu unsicheren Anfragen). Um die Nichterfüllungsfähigkeiten von Sprachmodellen zu testen, verwenden wir diese Taxonomie, um einen neuen Bewertungssatz mit 1000 Nichterfüllungsanfragen zu entwickeln. Wir stellen fest, dass die meisten bestehenden Modelle in bestimmten zuvor wenig erforschten Kategorien signifikant hohe Erfüllungsraten aufweisen, wobei Modelle wie GPT-4 fälschlicherweise bis zu 30% der Anfragen erfüllen. Um diese Lücken zu schließen, untersuchen wir verschiedene Trainingsstrategien unter Verwendung eines synthetisch generierten Trainingsdatensatzes von Anfragen und erwarteten nicht erfüllenden Antworten. Unsere Experimente zeigen, dass während das direkte Feintuning von instruktionsangepassten Modellen sowohl zu übermäßiger Ablehnung als auch zu einem Rückgang der allgemeinen Fähigkeiten führen kann, die Verwendung von parametereffizienten Methoden wie Low-Rank-Adaptern dazu beiträgt, ein gutes Gleichgewicht zwischen angemessener Nichterfüllung und anderen Fähigkeiten zu finden.
English
Chat-based language models are designed to be helpful, yet they should not comply with every user request. While most existing work primarily focuses on refusal of "unsafe" queries, we posit that the scope of noncompliance should be broadened. We introduce a comprehensive taxonomy of contextual noncompliance describing when and how models should not comply with user requests. Our taxonomy spans a wide range of categories including incomplete, unsupported, indeterminate, and humanizing requests (in addition to unsafe requests). To test noncompliance capabilities of language models, we use this taxonomy to develop a new evaluation suite of 1000 noncompliance prompts. We find that most existing models show significantly high compliance rates in certain previously understudied categories with models like GPT-4 incorrectly complying with as many as 30% of requests. To address these gaps, we explore different training strategies using a synthetically-generated training set of requests and expected noncompliant responses. Our experiments demonstrate that while direct finetuning of instruction-tuned models can lead to both over-refusal and a decline in general capabilities, using parameter efficient methods like low rank adapters helps to strike a good balance between appropriate noncompliance and other capabilities.

Summary

AI-Generated Summary

PDF42November 28, 2024