ChatPaper.aiChatPaper

SafeInfer: Context Adaptieve Decoderingstijd Veiligheidsafstemming voor Grote Taalmodellen

SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models

June 18, 2024
Auteurs: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra
cs.AI

Samenvatting

Veiligheidsuitgelijnde taalmodellen vertonen vaak kwetsbare en onevenwichtige veiligheidsmechanismen, wat de kans vergroot dat ze onveilige inhoud genereren. Bovendien kan het incorporeren van nieuwe kennis via bewerkingstechnieken in taalmodellen de veiligheid verder in gevaar brengen. Om deze problemen aan te pakken, stellen we SafeInfer voor, een contextadaptieve, veiligheidsuitlijningsstrategie tijdens het decoderen voor het genereren van veilige reacties op gebruikersvragen. SafeInfer bestaat uit twee fasen: de veiligheidsversterkingsfase, waarbij veilige voorbeelden worden gebruikt om de verborgen toestanden van het model aan te passen en de kans op veiligere uitvoer te vergroten, en de veiligheidsgestuurde decodeerfase, waarbij de tokenselectie wordt beïnvloed op basis van veiligheidsgeoptimaliseerde verdelingen, zodat de gegenereerde inhoud voldoet aan ethische richtlijnen. Verder presenteren we HarmEval, een nieuwe benchmark voor uitgebreide veiligheidsevaluaties, ontworpen om potentiële misbruikscenario's aan te pakken in overeenstemming met het beleid van toonaangevende AI-technologiegiganten.
English
Safety-aligned language models often exhibit fragile and imbalanced safety mechanisms, increasing the likelihood of generating unsafe content. In addition, incorporating new knowledge through editing techniques to language models can further compromise safety. To address these issues, we propose SafeInfer, a context-adaptive, decoding-time safety alignment strategy for generating safe responses to user queries. SafeInfer comprises two phases: the safety amplification phase, which employs safe demonstration examples to adjust the model's hidden states and increase the likelihood of safer outputs, and the safety-guided decoding phase, which influences token selection based on safety-optimized distributions, ensuring the generated content complies with ethical guidelines. Further, we present HarmEval, a novel benchmark for extensive safety evaluations, designed to address potential misuse scenarios in accordance with the policies of leading AI tech giants.
PDF163February 7, 2026