SafeInfer: Kontextadaptive Dekodierungszeit-Sicherheitsausrichtung für große Sprachmodelle
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
June 18, 2024
Autoren: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI
Zusammenfassung
Sicherheitsausgerichtete Sprachmodelle zeigen oft fragile und unausgewogene Sicherheitsmechanismen, was die Wahrscheinlichkeit erhöht, unsichere Inhalte zu generieren. Darüber hinaus kann das Einbeziehen neuer Kenntnisse durch Bearbeitungstechniken in Sprachmodellen die Sicherheit weiter beeinträchtigen. Um diese Probleme anzugehen, schlagen wir SafeInfer vor, eine kontextadaptive, dekodierungszeitliche Sicherheitsausrichtungsstrategie zur Generierung sicherer Antworten auf Benutzeranfragen. SafeInfer besteht aus zwei Phasen: der Sicherheitsverstärkungsphase, die sich sicherer Demonstrationsbeispiele bedient, um die verborgenen Zustände des Modells anzupassen und die Wahrscheinlichkeit sichererer Ausgaben zu erhöhen, und der sicherheitsgeleiteten Dekodierungsphase, die die Tokenauswahl basierend auf sicherheitsoptimierten Verteilungen beeinflusst, um sicherzustellen, dass die generierten Inhalte den ethischen Richtlinien entsprechen. Darüber hinaus präsentieren wir HarmEval, einen neuartigen Benchmark für umfassende Sicherheitsevaluierungen, der entwickelt wurde, um potenzielle Missbrauchsszenarien gemäß den Richtlinien führender KI-Technologiegiganten zu behandeln.
English
Safety-aligned language models often exhibit fragile and imbalanced safety
mechanisms, increasing the likelihood of generating unsafe content. In
addition, incorporating new knowledge through editing techniques to language
models can further compromise safety. To address these issues, we propose
SafeInfer, a context-adaptive, decoding-time safety alignment strategy for
generating safe responses to user queries. SafeInfer comprises two phases: the
safety amplification phase, which employs safe demonstration examples to adjust
the model's hidden states and increase the likelihood of safer outputs, and the
safety-guided decoding phase, which influences token selection based on
safety-optimized distributions, ensuring the generated content complies with
ethical guidelines. Further, we present HarmEval, a novel benchmark for
extensive safety evaluations, designed to address potential misuse scenarios in
accordance with the policies of leading AI tech giants.Summary
AI-Generated Summary