A Arte de Dizer Não: Não Cumprimento Contextual em Modelos de Linguagem
The Art of Saying No: Contextual Noncompliance in Language Models
July 2, 2024
Autores: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
cs.AI
Resumo
Os modelos de linguagem baseados em chat são projetados para serem úteis, no entanto, não devem atender a todas as solicitações dos usuários. Enquanto a maioria dos trabalhos existentes se concentra principalmente na recusa de consultas "inseguras", afirmamos que o escopo da não conformidade deve ser ampliado. Introduzimos uma taxonomia abrangente de não conformidade contextual descrevendo quando e como os modelos não devem atender às solicitações dos usuários. Nossa taxonomia abrange uma ampla gama de categorias, incluindo solicitações incompletas, não suportadas, indeterminadas e humanizantes (além de solicitações inseguras). Para testar as capacidades de não conformidade dos modelos de linguagem, usamos essa taxonomia para desenvolver uma nova suíte de avaliação com 1000 prompts de não conformidade. Descobrimos que a maioria dos modelos existentes apresenta taxas de conformidade significativamente altas em certas categorias anteriormente pouco estudadas, com modelos como o GPT-4 atendendo incorretamente a até 30% das solicitações. Para abordar essas lacunas, exploramos diferentes estratégias de treinamento usando um conjunto de treinamento de solicitações geradas sinteticamente e respostas não conformes esperadas. Nossos experimentos demonstram que, enquanto o ajuste fino direto de modelos ajustados por instrução pode levar tanto a uma super-recusa quanto a uma queda nas capacidades gerais, o uso de métodos eficientes em parâmetros como adaptadores de baixa classificação ajuda a encontrar um bom equilíbrio entre a não conformidade apropriada e outras capacidades.
English
Chat-based language models are designed to be helpful, yet they should not
comply with every user request. While most existing work primarily focuses on
refusal of "unsafe" queries, we posit that the scope of noncompliance should be
broadened. We introduce a comprehensive taxonomy of contextual noncompliance
describing when and how models should not comply with user requests. Our
taxonomy spans a wide range of categories including incomplete, unsupported,
indeterminate, and humanizing requests (in addition to unsafe requests). To
test noncompliance capabilities of language models, we use this taxonomy to
develop a new evaluation suite of 1000 noncompliance prompts. We find that most
existing models show significantly high compliance rates in certain previously
understudied categories with models like GPT-4 incorrectly complying with as
many as 30% of requests. To address these gaps, we explore different training
strategies using a synthetically-generated training set of requests and
expected noncompliant responses. Our experiments demonstrate that while direct
finetuning of instruction-tuned models can lead to both over-refusal and a
decline in general capabilities, using parameter efficient methods like low
rank adapters helps to strike a good balance between appropriate noncompliance
and other capabilities.