ChatPaper.aiChatPaper

L'art de dire non : Non-conformité contextuelle dans les modèles de langage

The Art of Saying No: Contextual Noncompliance in Language Models

July 2, 2024
Auteurs: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
cs.AI

Résumé

Les modèles de langage basés sur le chat sont conçus pour être utiles, mais ils ne devraient pas se conformer à chaque demande de l'utilisateur. Bien que la plupart des travaux existants se concentrent principalement sur le refus des requêtes "dangereuses", nous postulons que la portée de la non-conformité devrait être élargie. Nous introduisons une taxonomie complète de la non-conformité contextuelle décrivant quand et comment les modèles ne devraient pas se conformer aux demandes des utilisateurs. Notre taxonomie couvre un large éventail de catégories, y compris les demandes incomplètes, non étayées, indéterminées et humanisantes (en plus des demandes dangereuses). Pour tester les capacités de non-conformité des modèles de langage, nous utilisons cette taxonomie pour développer une nouvelle suite d'évaluation de 1000 invites de non-conformité. Nous constatons que la plupart des modèles existants montrent des taux de conformité significativement élevés dans certaines catégories précédemment sous-étudiées, avec des modèles comme GPT-4 se conformant incorrectement à jusqu'à 30 % des demandes. Pour combler ces lacunes, nous explorons différentes stratégies d'entraînement en utilisant un ensemble de données d'entraînement synthétiquement généré de demandes et de réponses non conformes attendues. Nos expériences démontrent que bien que le finetuning direct des modèles ajustés aux instructions puisse conduire à un sur-refus et à un déclin des capacités générales, l'utilisation de méthodes paramétriquement efficaces comme les adaptateurs de bas rang permet de trouver un bon équilibre entre une non-conformité appropriée et d'autres capacités.
English
Chat-based language models are designed to be helpful, yet they should not comply with every user request. While most existing work primarily focuses on refusal of "unsafe" queries, we posit that the scope of noncompliance should be broadened. We introduce a comprehensive taxonomy of contextual noncompliance describing when and how models should not comply with user requests. Our taxonomy spans a wide range of categories including incomplete, unsupported, indeterminate, and humanizing requests (in addition to unsafe requests). To test noncompliance capabilities of language models, we use this taxonomy to develop a new evaluation suite of 1000 noncompliance prompts. We find that most existing models show significantly high compliance rates in certain previously understudied categories with models like GPT-4 incorrectly complying with as many as 30% of requests. To address these gaps, we explore different training strategies using a synthetically-generated training set of requests and expected noncompliant responses. Our experiments demonstrate that while direct finetuning of instruction-tuned models can lead to both over-refusal and a decline in general capabilities, using parameter efficient methods like low rank adapters helps to strike a good balance between appropriate noncompliance and other capabilities.

Summary

AI-Generated Summary

PDF42November 28, 2024