El arte de decir no: Incumplimiento contextual en modelos de lenguaje
The Art of Saying No: Contextual Noncompliance in Language Models
July 2, 2024
Autores: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi
cs.AI
Resumen
Los modelos de lenguaje basados en chat están diseñados para ser útiles, pero no deben cumplir con cada solicitud del usuario. Mientras que la mayoría de trabajos existentes se centran principalmente en la negativa de consultas "peligrosas", sostenemos que el alcance de la falta de cumplimiento debería ser ampliado. Introducimos una taxonomía exhaustiva de falta de cumplimiento contextual que describe cuándo y cómo los modelos no deben cumplir con las solicitudes de los usuarios. Nuestra taxonomía abarca una amplia gama de categorías que incluyen solicitudes incompletas, no admitidas, indeterminadas y humanizadoras (además de solicitudes peligrosas). Para evaluar las capacidades de falta de cumplimiento de los modelos de lenguaje, utilizamos esta taxonomía para desarrollar un nuevo conjunto de evaluación de 1000 indicaciones de falta de cumplimiento. Descubrimos que la mayoría de los modelos existentes muestran tasas de cumplimiento significativamente altas en ciertas categorías previamente poco estudiadas, con modelos como GPT-4 cumpliendo incorrectamente con hasta un 30% de las solicitudes. Para abordar estas deficiencias, exploramos diferentes estrategias de entrenamiento utilizando un conjunto de entrenamiento de solicitudes generadas de forma sintética y respuestas no conformes esperadas. Nuestros experimentos demuestran que si bien el ajuste fino directo de modelos ajustados a instrucciones puede llevar tanto a una sobre-negativa como a una disminución en las capacidades generales, el uso de métodos eficientes en parámetros como adaptadores de rango bajo ayuda a encontrar un buen equilibrio entre la falta de cumplimiento apropiada y otras capacidades.
English
Chat-based language models are designed to be helpful, yet they should not
comply with every user request. While most existing work primarily focuses on
refusal of "unsafe" queries, we posit that the scope of noncompliance should be
broadened. We introduce a comprehensive taxonomy of contextual noncompliance
describing when and how models should not comply with user requests. Our
taxonomy spans a wide range of categories including incomplete, unsupported,
indeterminate, and humanizing requests (in addition to unsafe requests). To
test noncompliance capabilities of language models, we use this taxonomy to
develop a new evaluation suite of 1000 noncompliance prompts. We find that most
existing models show significantly high compliance rates in certain previously
understudied categories with models like GPT-4 incorrectly complying with as
many as 30% of requests. To address these gaps, we explore different training
strategies using a synthetically-generated training set of requests and
expected noncompliant responses. Our experiments demonstrate that while direct
finetuning of instruction-tuned models can lead to both over-refusal and a
decline in general capabilities, using parameter efficient methods like low
rank adapters helps to strike a good balance between appropriate noncompliance
and other capabilities.Summary
AI-Generated Summary