SafeInfer: 大規模言語モデルのための文脈適応型デコード時安全性アラインメント
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
June 18, 2024
著者: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI
要旨
安全性に配慮した言語モデルは、脆弱で不均衡な安全メカニズムを示すことが多く、安全でないコンテンツを生成する可能性が高まります。さらに、言語モデルに編集技術を通じて新しい知識を組み込むことは、安全性をさらに損なう可能性があります。これらの問題に対処するため、我々はSafeInferを提案します。これは、ユーザークエリに対する安全な応答を生成するための、コンテキスト適応型のデコード時安全性アライメント戦略です。SafeInferは2つのフェーズで構成されます:安全性増幅フェーズでは、安全なデモンストレーション例を使用してモデルの隠れ状態を調整し、より安全な出力の可能性を高めます。安全性誘導デコードフェーズでは、安全性最適化された分布に基づいてトークン選択に影響を与え、生成されるコンテンツが倫理ガイドラインに準拠することを保証します。さらに、主要なAIテック企業のポリシーに準拠した潜在的な誤用シナリオに対処するために設計された、広範な安全性評価のための新しいベンチマークであるHarmEvalを紹介します。
English
Safety-aligned language models often exhibit fragile and imbalanced safety
mechanisms, increasing the likelihood of generating unsafe content. In
addition, incorporating new knowledge through editing techniques to language
models can further compromise safety. To address these issues, we propose
SafeInfer, a context-adaptive, decoding-time safety alignment strategy for
generating safe responses to user queries. SafeInfer comprises two phases: the
safety amplification phase, which employs safe demonstration examples to adjust
the model's hidden states and increase the likelihood of safer outputs, and the
safety-guided decoding phase, which influences token selection based on
safety-optimized distributions, ensuring the generated content complies with
ethical guidelines. Further, we present HarmEval, a novel benchmark for
extensive safety evaluations, designed to address potential misuse scenarios in
accordance with the policies of leading AI tech giants.Summary
AI-Generated Summary