SafeInfer : Alignement de sécurité adaptatif au contexte en temps de décodage pour les grands modèles de langage
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
June 18, 2024
papers.authors: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI
papers.abstract
Les modèles de langage alignés sur la sécurité présentent souvent des mécanismes de sécurité fragiles et déséquilibrés, augmentant la probabilité de générer du contenu non sécurisé. De plus, l'intégration de nouvelles connaissances par le biais de techniques d'édition dans les modèles de langage peut encore compromettre la sécurité. Pour résoudre ces problèmes, nous proposons SafeInfer, une stratégie d'alignement de sécurité adaptative au contexte et au moment du décodage, visant à générer des réponses sécurisées aux requêtes des utilisateurs. SafeInfer se compose de deux phases : la phase d'amplification de la sécurité, qui utilise des exemples de démonstration sécurisés pour ajuster les états cachés du modèle et augmenter la probabilité de sorties plus sûres, et la phase de décodage guidé par la sécurité, qui influence la sélection des tokens en se basant sur des distributions optimisées pour la sécurité, garantissant ainsi que le contenu généré respecte les lignes directrices éthiques. Par ailleurs, nous présentons HarmEval, un nouveau benchmark pour des évaluations de sécurité approfondies, conçu pour traiter les scénarios d'utilisation abusive potentiels conformément aux politiques des géants de la technologie de l'IA.
English
Safety-aligned language models often exhibit fragile and imbalanced safety
mechanisms, increasing the likelihood of generating unsafe content. In
addition, incorporating new knowledge through editing techniques to language
models can further compromise safety. To address these issues, we propose
SafeInfer, a context-adaptive, decoding-time safety alignment strategy for
generating safe responses to user queries. SafeInfer comprises two phases: the
safety amplification phase, which employs safe demonstration examples to adjust
the model's hidden states and increase the likelihood of safer outputs, and the
safety-guided decoding phase, which influences token selection based on
safety-optimized distributions, ensuring the generated content complies with
ethical guidelines. Further, we present HarmEval, a novel benchmark for
extensive safety evaluations, designed to address potential misuse scenarios in
accordance with the policies of leading AI tech giants.