ChatPaper.aiChatPaper

SafeInfer : Alignement de sécurité adaptatif au contexte en temps de décodage pour les grands modèles de langage

SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models

June 18, 2024
papers.authors: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI

papers.abstract

Les modèles de langage alignés sur la sécurité présentent souvent des mécanismes de sécurité fragiles et déséquilibrés, augmentant la probabilité de générer du contenu non sécurisé. De plus, l'intégration de nouvelles connaissances par le biais de techniques d'édition dans les modèles de langage peut encore compromettre la sécurité. Pour résoudre ces problèmes, nous proposons SafeInfer, une stratégie d'alignement de sécurité adaptative au contexte et au moment du décodage, visant à générer des réponses sécurisées aux requêtes des utilisateurs. SafeInfer se compose de deux phases : la phase d'amplification de la sécurité, qui utilise des exemples de démonstration sécurisés pour ajuster les états cachés du modèle et augmenter la probabilité de sorties plus sûres, et la phase de décodage guidé par la sécurité, qui influence la sélection des tokens en se basant sur des distributions optimisées pour la sécurité, garantissant ainsi que le contenu généré respecte les lignes directrices éthiques. Par ailleurs, nous présentons HarmEval, un nouveau benchmark pour des évaluations de sécurité approfondies, conçu pour traiter les scénarios d'utilisation abusive potentiels conformément aux politiques des géants de la technologie de l'IA.
English
Safety-aligned language models often exhibit fragile and imbalanced safety mechanisms, increasing the likelihood of generating unsafe content. In addition, incorporating new knowledge through editing techniques to language models can further compromise safety. To address these issues, we propose SafeInfer, a context-adaptive, decoding-time safety alignment strategy for generating safe responses to user queries. SafeInfer comprises two phases: the safety amplification phase, which employs safe demonstration examples to adjust the model's hidden states and increase the likelihood of safer outputs, and the safety-guided decoding phase, which influences token selection based on safety-optimized distributions, ensuring the generated content complies with ethical guidelines. Further, we present HarmEval, a novel benchmark for extensive safety evaluations, designed to address potential misuse scenarios in accordance with the policies of leading AI tech giants.
PDF163December 4, 2024