SafeInfer: Согласование безопасности времени декодирования с адаптивным контекстом для больших языковых моделей
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
June 18, 2024
Авторы: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI
Аннотация
Языковые модели, ориентированные на безопасность, часто проявляют хрупкие и несбалансированные механизмы безопасности, увеличивая вероятность генерации небезопасного контента. Кроме того, внедрение новых знаний с помощью техник редактирования в языковые модели может дополнительно подвергать опасности безопасность. Для решения этих проблем мы предлагаем SafeInfer, стратегию выравнивания безопасности во время декодирования, адаптированную к контексту, для генерации безопасных ответов на запросы пользователей. SafeInfer состоит из двух фаз: фазы усиления безопасности, которая использует безопасные демонстрационные примеры для корректировки скрытых состояний модели и увеличения вероятности безопасных выходных данных, и фазы декодирования под контролем безопасности, которая влияет на выбор токенов на основе оптимизированных с точки зрения безопасности распределений, обеспечивая соответствие сгенерированного контента этическим рекомендациям. Кроме того, мы представляем HarmEval, новый бенчмарк для обширной оценки безопасности, разработанный для решения потенциальных сценариев неправомерного использования в соответствии с политикой ведущих гигантов искусственного интеллекта.
English
Safety-aligned language models often exhibit fragile and imbalanced safety
mechanisms, increasing the likelihood of generating unsafe content. In
addition, incorporating new knowledge through editing techniques to language
models can further compromise safety. To address these issues, we propose
SafeInfer, a context-adaptive, decoding-time safety alignment strategy for
generating safe responses to user queries. SafeInfer comprises two phases: the
safety amplification phase, which employs safe demonstration examples to adjust
the model's hidden states and increase the likelihood of safer outputs, and the
safety-guided decoding phase, which influences token selection based on
safety-optimized distributions, ensuring the generated content complies with
ethical guidelines. Further, we present HarmEval, a novel benchmark for
extensive safety evaluations, designed to address potential misuse scenarios in
accordance with the policies of leading AI tech giants.Summary
AI-Generated Summary