SafeInfer: 대규모 언어 모델을 위한 상황 적응형 디코딩 시간 안전성 정렬
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
June 18, 2024
저자: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI
초록
안전 정렬 언어 모델은 종종 취약하고 불균형적인 안전 메커니즘을 보여주어, 안전하지 않은 콘텐츠를 생성할 가능성을 높입니다. 또한, 언어 모델에 편집 기술을 통해 새로운 지식을 통합하는 것은 안전성을 더욱 훼손할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 사용자 질문에 대해 안전한 응답을 생성하기 위한 문맥 적응형 디코딩 시점 안전 정렬 전략인 SafeInfer를 제안합니다. SafeInfer는 두 단계로 구성됩니다: 첫 번째는 안전 증폭 단계로, 안전한 데모 예제를 사용하여 모델의 은닉 상태를 조정하고 더 안전한 출력을 생성할 가능성을 높입니다. 두 번째는 안전 가이드 디코딩 단계로, 안전 최적화 분포를 기반으로 토큰 선택에 영향을 미쳐 생성된 콘텐츠가 윤리적 가이드라인을 준수하도록 합니다. 또한, 우리는 주요 AI 기술 거대 기업들의 정책에 따라 잠재적인 오용 시나리오를 해결하기 위해 설계된 새로운 벤치마크인 HarmEval을 소개합니다.
English
Safety-aligned language models often exhibit fragile and imbalanced safety
mechanisms, increasing the likelihood of generating unsafe content. In
addition, incorporating new knowledge through editing techniques to language
models can further compromise safety. To address these issues, we propose
SafeInfer, a context-adaptive, decoding-time safety alignment strategy for
generating safe responses to user queries. SafeInfer comprises two phases: the
safety amplification phase, which employs safe demonstration examples to adjust
the model's hidden states and increase the likelihood of safer outputs, and the
safety-guided decoding phase, which influences token selection based on
safety-optimized distributions, ensuring the generated content complies with
ethical guidelines. Further, we present HarmEval, a novel benchmark for
extensive safety evaluations, designed to address potential misuse scenarios in
accordance with the policies of leading AI tech giants.Summary
AI-Generated Summary