ChatPaper.aiChatPaper

Aritmetica della Sicurezza: Un Framework per l'Allineamento della Sicurezza in Fase di Test dei Modelli Linguistici attraverso il Controllo di Parametri e Attivazioni

Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

June 17, 2024
Autori: Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria
cs.AI

Abstract

Garantire l'allineamento sicuro dei grandi modelli linguistici (LLM) con i valori umani è fondamentale man mano che diventano parte integrante di applicazioni come la traduzione e il rispondere a domande. I metodi attuali di allineamento faticano a gestire intenzioni dinamiche degli utenti e obiettivi complessi, rendendo i modelli vulnerabili alla generazione di contenuti dannosi. Proponiamo Safety Arithmetic, un framework senza necessità di addestramento che migliora la sicurezza degli LLM in diversi scenari: modelli di base, modelli ottimizzati con supervisione (SFT) e modelli modificati. Safety Arithmetic prevede la Rimozione della Direzione Dannosa per evitare contenuti nocivi e l'Allineamento alla Sicurezza per promuovere risposte sicure. Inoltre, presentiamo NoIntentEdit, un dataset che evidenzia casi di modifica che potrebbero compromettere la sicurezza del modello se utilizzati in modo non intenzionale. I nostri esperimenti dimostrano che Safety Arithmetic migliora significativamente le misure di sicurezza, riduce l'eccessiva cautela e mantiene l'utilità del modello, superando i metodi esistenti nel garantire la generazione di contenuti sicuri.
English
Ensuring the safe alignment of large language models (LLMs) with human values is critical as they become integral to applications like translation and question answering. Current alignment methods struggle with dynamic user intentions and complex objectives, making models vulnerable to generating harmful content. We propose Safety Arithmetic, a training-free framework enhancing LLM safety across different scenarios: Base models, Supervised fine-tuned models (SFT), and Edited models. Safety Arithmetic involves Harm Direction Removal to avoid harmful content and Safety Alignment to promote safe responses. Additionally, we present NoIntentEdit, a dataset highlighting edit instances that could compromise model safety if used unintentionally. Our experiments show that Safety Arithmetic significantly improves safety measures, reduces over-safety, and maintains model utility, outperforming existing methods in ensuring safe content generation.
PDF164February 7, 2026