ChatPaper.aiChatPaper

L'arte di dire di no: la non conformità contestuale nei modelli linguistici

The Art of Saying No: Contextual Noncompliance in Language Models

July 2, 2024
Autori: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
cs.AI

Abstract

I modelli linguistici basati su chat sono progettati per essere utili, ma non dovrebbero accettare ogni richiesta dell'utente. Mentre la maggior parte del lavoro esistente si concentra principalmente sul rifiuto di query "non sicure", sosteniamo che l'ambito della non conformità dovrebbe essere ampliato. Introduciamo una tassonomia completa della non conformità contestuale, descrivendo quando e come i modelli non dovrebbero accettare le richieste degli utenti. La nostra tassonomia copre un'ampia gamma di categorie, tra cui richieste incomplete, non supportate, indeterminate e umanizzanti (oltre a quelle non sicure). Per testare le capacità di non conformità dei modelli linguistici, utilizziamo questa tassonomia per sviluppare una nuova suite di valutazione composta da 1000 prompt di non conformità. Scopriamo che la maggior parte dei modelli esistenti mostra tassi di conformità significativamente elevati in alcune categorie precedentemente poco studiate, con modelli come GPT-4 che accettano erroneamente fino al 30% delle richieste. Per colmare queste lacune, esploriamo diverse strategie di addestramento utilizzando un set di dati di addestramento sinteticamente generato, composto da richieste e risposte non conformi attese. I nostri esperimenti dimostrano che, sebbene il fine-tuning diretto di modelli ottimizzati per le istruzioni possa portare sia a un eccessivo rifiuto che a un declino delle capacità generali, l'uso di metodi efficienti in termini di parametri come gli adattatori a basso rango aiuta a trovare un buon equilibrio tra una non conformità appropriata e altre capacità.
English
Chat-based language models are designed to be helpful, yet they should not comply with every user request. While most existing work primarily focuses on refusal of "unsafe" queries, we posit that the scope of noncompliance should be broadened. We introduce a comprehensive taxonomy of contextual noncompliance describing when and how models should not comply with user requests. Our taxonomy spans a wide range of categories including incomplete, unsupported, indeterminate, and humanizing requests (in addition to unsafe requests). To test noncompliance capabilities of language models, we use this taxonomy to develop a new evaluation suite of 1000 noncompliance prompts. We find that most existing models show significantly high compliance rates in certain previously understudied categories with models like GPT-4 incorrectly complying with as many as 30% of requests. To address these gaps, we explore different training strategies using a synthetically-generated training set of requests and expected noncompliant responses. Our experiments demonstrate that while direct finetuning of instruction-tuned models can lead to both over-refusal and a decline in general capabilities, using parameter efficient methods like low rank adapters helps to strike a good balance between appropriate noncompliance and other capabilities.
PDF42November 28, 2024