ChatPaper.aiChatPaper

SafeInfer: Alinhamento de Segurança Adaptativo ao Contexto no Tempo de Decodificação para Modelos de Linguagem de Grande Escala

SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models

June 18, 2024
Autores: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI

Resumo

Modelos de linguagem alinhados à segurança frequentemente exibem mecanismos de segurança frágeis e desequilibrados, aumentando a probabilidade de gerar conteúdo inseguro. Além disso, a incorporação de novos conhecimentos por meio de técnicas de edição em modelos de linguagem pode comprometer ainda mais a segurança. Para abordar esses problemas, propomos o SafeInfer, uma estratégia de alinhamento de segurança adaptativa ao contexto, aplicada durante a decodificação, para gerar respostas seguras a consultas dos usuários. O SafeInfer compreende duas fases: a fase de amplificação de segurança, que emprega exemplos de demonstração seguros para ajustar os estados ocultos do modelo e aumentar a probabilidade de saídas mais seguras, e a fase de decodificação guiada por segurança, que influencia a seleção de tokens com base em distribuições otimizadas para segurança, garantindo que o conteúdo gerado esteja em conformidade com diretrizes éticas. Adicionalmente, apresentamos o HarmEval, um novo benchmark para avaliações extensivas de segurança, projetado para abordar cenários de uso indevido em conformidade com as políticas das principais gigantes de tecnologia de IA.
English
Safety-aligned language models often exhibit fragile and imbalanced safety mechanisms, increasing the likelihood of generating unsafe content. In addition, incorporating new knowledge through editing techniques to language models can further compromise safety. To address these issues, we propose SafeInfer, a context-adaptive, decoding-time safety alignment strategy for generating safe responses to user queries. SafeInfer comprises two phases: the safety amplification phase, which employs safe demonstration examples to adjust the model's hidden states and increase the likelihood of safer outputs, and the safety-guided decoding phase, which influences token selection based on safety-optimized distributions, ensuring the generated content complies with ethical guidelines. Further, we present HarmEval, a novel benchmark for extensive safety evaluations, designed to address potential misuse scenarios in accordance with the policies of leading AI tech giants.
PDF163December 4, 2024