ChatPaper.aiChatPaper

Искусство говорить "нет": контекстуальное невыполнение в языковых моделях

The Art of Saying No: Contextual Noncompliance in Language Models

July 2, 2024
Авторы: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
cs.AI

Аннотация

Языковые модели на основе чатов разрабатываются для оказания помощи, однако они не должны удовлетворять каждый запрос пользователя. В то время как большинство существующих работ в основном сосредотачиваются на отказе от "небезопасных" запросов, мы полагаем, что область невыполнения запросов следует расширить. Мы представляем обширную таксономию контекстного невыполнения, описывающую когда и как модели не должны удовлетворять запросы пользователей. Наша таксономия охватывает широкий спектр категорий, включая неполные, неподдерживаемые, неопределенные и гуманизирующие запросы (помимо небезопасных запросов). Для проверки возможностей невыполнения языковых моделей мы используем эту таксономию для разработки нового набора оценочных данных из 1000 запросов на невыполнение. Мы обнаружили, что большинство существующих моделей показывают значительно высокие уровни выполнения в определенных ранее недостаточно изученных категориях, причем модели, такие как GPT-4, неправильно удовлетворяют до 30% запросов. Для устранения этих пробелов мы исследуем различные стратегии обучения, используя синтетически созданный набор данных для обучения запросов и ожидаемых невыполненных ответов. Наши эксперименты показывают, что хотя прямое донастройка моделей, настроенных на инструкции, может привести как к избыточному отказу, так и к снижению общих возможностей, использование эффективных методов, таких как низкоранговые адаптеры, помогает найти баланс между соответствующим невыполнением запросов и другими возможностями.
English
Chat-based language models are designed to be helpful, yet they should not comply with every user request. While most existing work primarily focuses on refusal of "unsafe" queries, we posit that the scope of noncompliance should be broadened. We introduce a comprehensive taxonomy of contextual noncompliance describing when and how models should not comply with user requests. Our taxonomy spans a wide range of categories including incomplete, unsupported, indeterminate, and humanizing requests (in addition to unsafe requests). To test noncompliance capabilities of language models, we use this taxonomy to develop a new evaluation suite of 1000 noncompliance prompts. We find that most existing models show significantly high compliance rates in certain previously understudied categories with models like GPT-4 incorrectly complying with as many as 30% of requests. To address these gaps, we explore different training strategies using a synthetically-generated training set of requests and expected noncompliant responses. Our experiments demonstrate that while direct finetuning of instruction-tuned models can lead to both over-refusal and a decline in general capabilities, using parameter efficient methods like low rank adapters helps to strike a good balance between appropriate noncompliance and other capabilities.

Summary

AI-Generated Summary

PDF42November 28, 2024