Steuerbare Sicherheitsausrichtung: Anpassung zur Inferenzzeit an verschiedene Sicherheitsanforderungen
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements
October 11, 2024
Autoren: Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme
cs.AI
Zusammenfassung
Der aktuelle Paradigmenwechsel für die Sicherheitsausrichtung großer Sprachmodelle (LLMs) folgt einem Einheitsansatz: Das Modell weigert sich, mit Inhalten zu interagieren, die vom Modellanbieter als unsicher eingestuft werden. Dieser Ansatz mangelt an Flexibilität angesichts unterschiedlicher sozialer Normen in verschiedenen Kulturen und Regionen. Darüber hinaus können Benutzer unterschiedliche Sicherheitsbedürfnisse haben, wodurch ein Modell mit statischen Sicherheitsstandards zu restriktiv ist, um nützlich zu sein, und zu kostspielig, um neu ausgerichtet zu werden.
Wir schlagen Controllable Safety Alignment (CoSA) vor, ein Framework, das entwickelt wurde, um Modelle an verschiedene Sicherheitsanforderungen anzupassen, ohne sie neu zu trainieren. Anstatt ein festes Modell auszurichten, passen wir Modelle an, um Sicherheitskonfigurationen zu befolgen - freiformnatürliche Sprachbeschreibungen des gewünschten Sicherheitsverhaltens -, die als Teil der Systemaufforderung bereitgestellt werden. Um das Sicherheitsverhalten des Modells anzupassen, müssen autorisierte Benutzer nur solche Sicherheitskonfigurationen zur Inferenzzeit ändern. Um dies zu ermöglichen, schlagen wir CoSAlign vor, eine datenzentrierte Methode zur Ausrichtung von LLMs, um sich leicht an verschiedene Sicherheitskonfigurationen anzupassen. Darüber hinaus entwickeln wir ein neuartiges Kontrollierbarkeitsbewertungsprotokoll, das sowohl Hilfreichkeit als auch konfigurierte Sicherheit berücksichtigt und sie in den CoSA-Score zusammenfasst, und konstruieren CoSApien, einen von Menschen erstellten Benchmark, der aus LLM-Anwendungsfällen aus der realen Welt mit unterschiedlichen Sicherheitsanforderungen und entsprechenden Bewertungsaufforderungen besteht.
Wir zeigen, dass CoSAlign zu erheblichen Verbesserungen der Kontrollierbarkeit im Vergleich zu starken Baselines, einschließlich der kontextbezogenen Ausrichtung, führt. Unser Framework fördert eine bessere Repräsentation und Anpassung an pluralistische menschliche Werte in LLMs und erhöht dadurch ihre Praktikabilität.
English
The current paradigm for safety alignment of large language models (LLMs)
follows a one-size-fits-all approach: the model refuses to interact with any
content deemed unsafe by the model provider. This approach lacks flexibility in
the face of varying social norms across cultures and regions. In addition,
users may have diverse safety needs, making a model with static safety
standards too restrictive to be useful, as well as too costly to be re-aligned.
We propose Controllable Safety Alignment (CoSA), a framework designed to
adapt models to diverse safety requirements without re-training. Instead of
aligning a fixed model, we align models to follow safety configs -- free-form
natural language descriptions of the desired safety behaviors -- that are
provided as part of the system prompt. To adjust model safety behavior,
authorized users only need to modify such safety configs at inference time. To
enable that, we propose CoSAlign, a data-centric method for aligning LLMs to
easily adapt to diverse safety configs. Furthermore, we devise a novel
controllability evaluation protocol that considers both helpfulness and
configured safety, summarizing them into CoSA-Score, and construct CoSApien, a
human-authored benchmark that consists of real-world LLM use cases with diverse
safety requirements and corresponding evaluation prompts.
We show that CoSAlign leads to substantial gains of controllability over
strong baselines including in-context alignment. Our framework encourages
better representation and adaptation to pluralistic human values in LLMs, and
thereby increasing their practicality.Summary
AI-Generated Summary