De Kunst van Nee Zeggen: Contextuele Niet-naleving in Taalmodellen
The Art of Saying No: Contextual Noncompliance in Language Models
July 2, 2024
Auteurs: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
cs.AI
Samenvatting
Chatgebaseerde taalmmodellen zijn ontworpen om behulpzaam te zijn, maar ze zouden niet aan elk gebruikersverzoek moeten voldoen. Hoewel het meeste bestaande werk zich vooral richt op het weigeren van "onveilige" verzoeken, stellen wij dat de reikwijdte van niet-naleving verbreed zou moeten worden. We introduceren een uitgebreide taxonomie van contextuele niet-naleving die beschrijft wanneer en hoe modellen niet aan gebruikersverzoeken zouden moeten voldoen. Onze taxonomie omvat een breed scala aan categorieën, waaronder onvolledige, niet-onderbouwde, onbepaalde en humaniserende verzoeken (naast onveilige verzoeken). Om de niet-nalevingscapaciteiten van taalmmodellen te testen, gebruiken we deze taxonomie om een nieuwe evaluatieset van 1000 niet-nalevingsprompts te ontwikkelen. We constateren dat de meeste bestaande modellen aanzienlijk hoge nalevingspercentages vertonen in bepaalde voorheen onderbelichte categorieën, waarbij modellen zoals GPT-4 in maar liefst 30% van de gevallen onterecht aan verzoeken voldoen. Om deze tekortkomingen aan te pakken, onderzoeken we verschillende trainingsstrategieën met behulp van een synthetisch gegenereerde trainingsset van verzoeken en verwachte niet-nalevingsreacties. Onze experimenten tonen aan dat, hoewel direct finetunen van instructie-getrainde modellen kan leiden tot zowel overmatige weigering als een afname van algemene capaciteiten, het gebruik van parameter-efficiënte methoden zoals low-rank adapters helpt om een goede balans te vinden tussen gepaste niet-naleving en andere capaciteiten.
English
Chat-based language models are designed to be helpful, yet they should not
comply with every user request. While most existing work primarily focuses on
refusal of "unsafe" queries, we posit that the scope of noncompliance should be
broadened. We introduce a comprehensive taxonomy of contextual noncompliance
describing when and how models should not comply with user requests. Our
taxonomy spans a wide range of categories including incomplete, unsupported,
indeterminate, and humanizing requests (in addition to unsafe requests). To
test noncompliance capabilities of language models, we use this taxonomy to
develop a new evaluation suite of 1000 noncompliance prompts. We find that most
existing models show significantly high compliance rates in certain previously
understudied categories with models like GPT-4 incorrectly complying with as
many as 30% of requests. To address these gaps, we explore different training
strategies using a synthetically-generated training set of requests and
expected noncompliant responses. Our experiments demonstrate that while direct
finetuning of instruction-tuned models can lead to both over-refusal and a
decline in general capabilities, using parameter efficient methods like low
rank adapters helps to strike a good balance between appropriate noncompliance
and other capabilities.