Allineamento della Sicurezza Controllabile: Adattamento in Tempo di Inferenza a Diverse Requisiti di Sicurezza
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements
October 11, 2024
Autori: Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme
cs.AI
Abstract
Il paradigma attuale per l'allineamento della sicurezza dei grandi modelli linguistici (LLM) segue un approccio universale: il modello rifiuta di interagire con qualsiasi contenuto ritenuto non sicuro dal fornitore del modello. Questo approccio manca di flessibilità di fronte alle varie norme sociali tra culture e regioni diverse. Inoltre, gli utenti possono avere diverse esigenze di sicurezza, rendendo un modello con standard di sicurezza statici troppo restrittivo per essere utile, oltre che troppo costoso da riallineare.
Proponiamo Controllable Safety Alignment (CoSA), un framework progettato per adattare i modelli a diverse esigenze di sicurezza senza la necessità di un nuovo addestramento. Invece di allineare un modello fisso, allineiamo i modelli a seguire configurazioni di sicurezza - descrizioni in linguaggio naturale dei comportamenti di sicurezza desiderati - fornite come parte dell'input di sistema. Per regolare il comportamento di sicurezza del modello, gli utenti autorizzati devono solo modificare tali configurazioni di sicurezza al momento dell'inferenza. Per consentire ciò, proponiamo CoSAlign, un metodo basato sui dati per allineare i LLM in modo da adattarsi facilmente a diverse configurazioni di sicurezza. Inoltre, ideiamo un nuovo protocollo di valutazione della controllabilità che considera sia l'utilità che la sicurezza configurata, riassumendoli in un punteggio CoSA, e costruiamo CoSApien, un benchmark redatto da umani che consiste in casi d'uso reali di LLM con diverse esigenze di sicurezza e relativi input di valutazione.
Dimostriamo che CoSAlign porta a guadagni sostanziali di controllabilità rispetto a basi solide, inclusa l'allineamento in contesto. Il nostro framework incoraggia una migliore rappresentazione e adattamento ai valori umani pluralistici nei LLM, aumentandone così la praticità.
English
The current paradigm for safety alignment of large language models (LLMs)
follows a one-size-fits-all approach: the model refuses to interact with any
content deemed unsafe by the model provider. This approach lacks flexibility in
the face of varying social norms across cultures and regions. In addition,
users may have diverse safety needs, making a model with static safety
standards too restrictive to be useful, as well as too costly to be re-aligned.
We propose Controllable Safety Alignment (CoSA), a framework designed to
adapt models to diverse safety requirements without re-training. Instead of
aligning a fixed model, we align models to follow safety configs -- free-form
natural language descriptions of the desired safety behaviors -- that are
provided as part of the system prompt. To adjust model safety behavior,
authorized users only need to modify such safety configs at inference time. To
enable that, we propose CoSAlign, a data-centric method for aligning LLMs to
easily adapt to diverse safety configs. Furthermore, we devise a novel
controllability evaluation protocol that considers both helpfulness and
configured safety, summarizing them into CoSA-Score, and construct CoSApien, a
human-authored benchmark that consists of real-world LLM use cases with diverse
safety requirements and corresponding evaluation prompts.
We show that CoSAlign leads to substantial gains of controllability over
strong baselines including in-context alignment. Our framework encourages
better representation and adaptation to pluralistic human values in LLMs, and
thereby increasing their practicality.Summary
AI-Generated Summary