ChatPaper.aiChatPaper

Alineación de Seguridad Controlable: Adaptación en Tiempo de Inferencia a Diversos Requisitos de Seguridad

Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

October 11, 2024
Autores: Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme
cs.AI

Resumen

El paradigma actual para la alineación de seguridad de grandes modelos de lenguaje (LLMs) sigue un enfoque de talla única: el modelo se niega a interactuar con cualquier contenido considerado inseguro por el proveedor del modelo. Este enfoque carece de flexibilidad ante las variadas normas sociales en diferentes culturas y regiones. Además, los usuarios pueden tener diversas necesidades de seguridad, lo que hace que un modelo con estándares de seguridad estáticos sea demasiado restrictivo para ser útil, así como demasiado costoso de reajustar. Proponemos Alineación de Seguridad Controlable (CoSA), un marco diseñado para adaptar modelos a diversos requisitos de seguridad sin necesidad de volver a entrenarlos. En lugar de alinear un modelo fijo, alineamos modelos para seguir configuraciones de seguridad: descripciones en lenguaje natural de comportamientos de seguridad deseados, que se proporcionan como parte de la indicación del sistema. Para ajustar el comportamiento de seguridad del modelo, los usuarios autorizados solo necesitan modificar dichas configuraciones de seguridad en tiempo de inferencia. Para habilitar esto, proponemos CoSAlign, un método centrado en datos para alinear LLMs y adaptarlos fácilmente a diversas configuraciones de seguridad. Además, ideamos un protocolo de evaluación de controlabilidad novedoso que considera tanto la utilidad como la seguridad configurada, resumiéndolas en CoSA-Score, y creamos CoSApien, un banco de pruebas creado por humanos que consiste en casos de uso reales de LLM con diversos requisitos de seguridad y indicaciones de evaluación correspondientes. Demostramos que CoSAlign conduce a ganancias sustanciales de controlabilidad sobre baselines sólidos, incluida la alineación en contexto. Nuestro marco fomenta una mejor representación y adaptación a los valores humanos pluralistas en LLMs, aumentando así su practicidad.
English
The current paradigm for safety alignment of large language models (LLMs) follows a one-size-fits-all approach: the model refuses to interact with any content deemed unsafe by the model provider. This approach lacks flexibility in the face of varying social norms across cultures and regions. In addition, users may have diverse safety needs, making a model with static safety standards too restrictive to be useful, as well as too costly to be re-aligned. We propose Controllable Safety Alignment (CoSA), a framework designed to adapt models to diverse safety requirements without re-training. Instead of aligning a fixed model, we align models to follow safety configs -- free-form natural language descriptions of the desired safety behaviors -- that are provided as part of the system prompt. To adjust model safety behavior, authorized users only need to modify such safety configs at inference time. To enable that, we propose CoSAlign, a data-centric method for aligning LLMs to easily adapt to diverse safety configs. Furthermore, we devise a novel controllability evaluation protocol that considers both helpfulness and configured safety, summarizing them into CoSA-Score, and construct CoSApien, a human-authored benchmark that consists of real-world LLM use cases with diverse safety requirements and corresponding evaluation prompts. We show that CoSAlign leads to substantial gains of controllability over strong baselines including in-context alignment. Our framework encourages better representation and adaptation to pluralistic human values in LLMs, and thereby increasing their practicality.

Summary

AI-Generated Summary

PDF132November 16, 2024