SafeInfer: Alineación de Seguridad Adaptativa al Contexto en el Tiempo de Decodificación para Modelos de Lenguaje a Gran Escala
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
June 18, 2024
Autores: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI
Resumen
Los modelos de lenguaje alineados con la seguridad a menudo exhiben mecanismos de seguridad frágiles y desequilibrados, lo que aumenta la probabilidad de generar contenido inseguro. Además, la incorporación de nuevos conocimientos mediante técnicas de edición en los modelos de lenguaje puede comprometer aún más la seguridad. Para abordar estos problemas, proponemos SafeInfer, una estrategia de alineación de seguridad en tiempo de decodificación y adaptable al contexto, diseñada para generar respuestas seguras a las consultas de los usuarios. SafeInfer consta de dos fases: la fase de amplificación de seguridad, que emplea ejemplos de demostración seguros para ajustar los estados ocultos del modelo y aumentar la probabilidad de salidas más seguras, y la fase de decodificación guiada por la seguridad, que influye en la selección de tokens basándose en distribuciones optimizadas para la seguridad, asegurando que el contenido generado cumpla con las pautas éticas. Además, presentamos HarmEval, un nuevo punto de referencia para evaluaciones exhaustivas de seguridad, diseñado para abordar posibles escenarios de uso indebido de acuerdo con las políticas de las principales empresas tecnológicas de IA.
English
Safety-aligned language models often exhibit fragile and imbalanced safety
mechanisms, increasing the likelihood of generating unsafe content. In
addition, incorporating new knowledge through editing techniques to language
models can further compromise safety. To address these issues, we propose
SafeInfer, a context-adaptive, decoding-time safety alignment strategy for
generating safe responses to user queries. SafeInfer comprises two phases: the
safety amplification phase, which employs safe demonstration examples to adjust
the model's hidden states and increase the likelihood of safer outputs, and the
safety-guided decoding phase, which influences token selection based on
safety-optimized distributions, ensuring the generated content complies with
ethical guidelines. Further, we present HarmEval, a novel benchmark for
extensive safety evaluations, designed to address potential misuse scenarios in
accordance with the policies of leading AI tech giants.