ChatPaper.aiChatPaper

Alinhamento de Segurança Controlável: Adaptação em Tempo de Inferência a Diversos Requisitos de Segurança

Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

October 11, 2024
Autores: Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme
cs.AI

Resumo

O paradigma atual para alinhamento de segurança de grandes modelos de linguagem (LLMs) segue uma abordagem de tamanho único: o modelo se recusa a interagir com qualquer conteúdo considerado inseguro pelo provedor do modelo. Essa abordagem carece de flexibilidade diante das normas sociais variadas entre culturas e regiões. Além disso, os usuários podem ter diversas necessidades de segurança, tornando um modelo com padrões de segurança estáticos muito restritivo para ser útil, bem como muito custoso para ser realinhado. Propomos o Alinhamento de Segurança Controlável (CoSA), um framework projetado para adaptar modelos a diversos requisitos de segurança sem a necessidade de re-treinamento. Em vez de alinhar um modelo fixo, alinhamos modelos para seguir configurações de segurança - descrições em linguagem natural de comportamentos de segurança desejados - que são fornecidas como parte do prompt do sistema. Para ajustar o comportamento de segurança do modelo, os usuários autorizados só precisam modificar tais configurações de segurança no momento da inferência. Para viabilizar isso, propomos o CoSAlign, um método centrado em dados para alinhar LLMs para se adaptarem facilmente a diversas configurações de segurança. Além disso, concebemos um protocolo de avaliação de controlabilidade inovador que considera tanto a utilidade quanto a segurança configurada, resumindo-os no CoSA-Score, e construímos o CoSApien, um benchmark criado por humanos que consiste em casos de uso do mundo real de LLMs com diversos requisitos de segurança e prompts de avaliação correspondentes. Demonstramos que o CoSAlign leva a ganhos substanciais de controlabilidade sobre baselines fortes, incluindo o alinhamento em contexto. Nosso framework incentiva uma melhor representação e adaptação aos valores humanos pluralísticos em LLMs, e, assim, aumenta sua praticidade.
English
The current paradigm for safety alignment of large language models (LLMs) follows a one-size-fits-all approach: the model refuses to interact with any content deemed unsafe by the model provider. This approach lacks flexibility in the face of varying social norms across cultures and regions. In addition, users may have diverse safety needs, making a model with static safety standards too restrictive to be useful, as well as too costly to be re-aligned. We propose Controllable Safety Alignment (CoSA), a framework designed to adapt models to diverse safety requirements without re-training. Instead of aligning a fixed model, we align models to follow safety configs -- free-form natural language descriptions of the desired safety behaviors -- that are provided as part of the system prompt. To adjust model safety behavior, authorized users only need to modify such safety configs at inference time. To enable that, we propose CoSAlign, a data-centric method for aligning LLMs to easily adapt to diverse safety configs. Furthermore, we devise a novel controllability evaluation protocol that considers both helpfulness and configured safety, summarizing them into CoSA-Score, and construct CoSApien, a human-authored benchmark that consists of real-world LLM use cases with diverse safety requirements and corresponding evaluation prompts. We show that CoSAlign leads to substantial gains of controllability over strong baselines including in-context alignment. Our framework encourages better representation and adaptation to pluralistic human values in LLMs, and thereby increasing their practicality.

Summary

AI-Generated Summary

PDF132November 16, 2024