SafeInfer: Allineamento Sicuro al Tempo di Decodifica Adattivo al Contesto per Modelli Linguistici di Grande Dimensione
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
June 18, 2024
Autori: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI
Abstract
I modelli linguistici allineati alla sicurezza spesso presentano meccanismi di sicurezza fragili e squilibrati, aumentando la probabilità di generare contenuti non sicuri. Inoltre, l'incorporazione di nuove conoscenze attraverso tecniche di editing nei modelli linguistici può ulteriormente compromettere la sicurezza. Per affrontare questi problemi, proponiamo SafeInfer, una strategia di allineamento della sicurezza adattiva al contesto e al momento della decodifica, progettata per generare risposte sicure alle query degli utenti. SafeInfer si compone di due fasi: la fase di amplificazione della sicurezza, che utilizza esempi dimostrativi sicuri per regolare gli stati nascosti del modello e aumentare la probabilità di output più sicuri, e la fase di decodifica guidata dalla sicurezza, che influenza la selezione dei token basandosi su distribuzioni ottimizzate per la sicurezza, garantendo che il contenuto generato sia conforme alle linee guida etiche. Inoltre, presentiamo HarmEval, un nuovo benchmark per valutazioni estensive della sicurezza, progettato per affrontare potenziali scenari di abuso in conformità con le politiche dei principali colossi tecnologici dell'IA.
English
Safety-aligned language models often exhibit fragile and imbalanced safety
mechanisms, increasing the likelihood of generating unsafe content. In
addition, incorporating new knowledge through editing techniques to language
models can further compromise safety. To address these issues, we propose
SafeInfer, a context-adaptive, decoding-time safety alignment strategy for
generating safe responses to user queries. SafeInfer comprises two phases: the
safety amplification phase, which employs safe demonstration examples to adjust
the model's hidden states and increase the likelihood of safer outputs, and the
safety-guided decoding phase, which influences token selection based on
safety-optimized distributions, ensuring the generated content complies with
ethical guidelines. Further, we present HarmEval, a novel benchmark for
extensive safety evaluations, designed to address potential misuse scenarios in
accordance with the policies of leading AI tech giants.