Allineamento della Sicurezza Controllabile: Adattamento in Tempo di Inferenza a Diverse Requisiti di Sicurezza

Abstract

Il paradigma attuale per l'allineamento della sicurezza dei grandi modelli linguistici (LLM) segue un approccio universale: il modello rifiuta di interagire con qualsiasi contenuto ritenuto non sicuro dal fornitore del modello. Questo approccio manca di flessibilità di fronte alle varie norme sociali tra culture e regioni diverse. Inoltre, gli utenti possono avere diverse esigenze di sicurezza, rendendo un modello con standard di sicurezza statici troppo restrittivo per essere utile, oltre che troppo costoso da riallineare. Proponiamo Controllable Safety Alignment (CoSA), un framework progettato per adattare i modelli a diverse esigenze di sicurezza senza la necessità di un nuovo addestramento. Invece di allineare un modello fisso, allineiamo i modelli a seguire configurazioni di sicurezza - descrizioni in linguaggio naturale dei comportamenti di sicurezza desiderati - fornite come parte dell'input di sistema. Per regolare il comportamento di sicurezza del modello, gli utenti autorizzati devono solo modificare tali configurazioni di sicurezza al momento dell'inferenza. Per consentire ciò, proponiamo CoSAlign, un metodo basato sui dati per allineare i LLM in modo da adattarsi facilmente a diverse configurazioni di sicurezza. Inoltre, ideiamo un nuovo protocollo di valutazione della controllabilità che considera sia l'utilità che la sicurezza configurata, riassumendoli in un punteggio CoSA, e costruiamo CoSApien, un benchmark redatto da umani che consiste in casi d'uso reali di LLM con diverse esigenze di sicurezza e relativi input di valutazione. Dimostriamo che CoSAlign porta a guadagni sostanziali di controllabilità rispetto a basi solide, inclusa l'allineamento in contesto. Il nostro framework incoraggia una migliore rappresentazione e adattamento ai valori umani pluralistici nei LLM, aumentandone così la praticità.

English

The current paradigm for safety alignment of large language models (LLMs) follows a one-size-fits-all approach: the model refuses to interact with any content deemed unsafe by the model provider. This approach lacks flexibility in the face of varying social norms across cultures and regions. In addition, users may have diverse safety needs, making a model with static safety standards too restrictive to be useful, as well as too costly to be re-aligned. We propose Controllable Safety Alignment (CoSA), a framework designed to adapt models to diverse safety requirements without re-training. Instead of aligning a fixed model, we align models to follow safety configs -- free-form natural language descriptions of the desired safety behaviors -- that are provided as part of the system prompt. To adjust model safety behavior, authorized users only need to modify such safety configs at inference time. To enable that, we propose CoSAlign, a data-centric method for aligning LLMs to easily adapt to diverse safety configs. Furthermore, we devise a novel controllability evaluation protocol that considers both helpfulness and configured safety, summarizing them into CoSA-Score, and construct CoSApien, a human-authored benchmark that consists of real-world LLM use cases with diverse safety requirements and corresponding evaluation prompts. We show that CoSAlign leads to substantial gains of controllability over strong baselines including in-context alignment. Our framework encourages better representation and adaptation to pluralistic human values in LLMs, and thereby increasing their practicality.

Allineamento della Sicurezza Controllabile: Adattamento in Tempo di Inferenza a Diverse Requisiti di Sicurezza

Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

Abstract

Summary

Support

Support