Oltre l'Ingegneria dei Prompt: Controllo Robusto del Comportamento nei LLM tramite Atomi di Steering Target
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms
May 23, 2025
Autori: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang
cs.AI
Abstract
Il controllo preciso sulla generazione dei modelli linguistici è fondamentale per garantire sia la sicurezza che l'affidabilità. Sebbene l'ingegneria dei prompt e il pilotaggio siano comunemente utilizzati per intervenire sui comportamenti dei modelli, l'enorme numero di parametri nei modelli spesso porta a rappresentazioni interne altamente interconnesse. Questa interdipendenza può limitare la precisione del controllo e talvolta causare effetti collaterali indesiderati. Ricerche recenti hanno esplorato l'uso di autoencoder sparsi (SAE) per separare la conoscenza in spazi ad alta dimensionalità per il pilotaggio. Tuttavia, queste applicazioni sono state limitate a compiti semplici a causa del problema non banale di individuare componenti di conoscenza atomici. In questo articolo, proponiamo Steering Target Atoms (STA), un metodo innovativo che isola e manipola componenti di conoscenza separati per migliorare la sicurezza. Esperimenti completi dimostrano l'efficacia del nostro approccio. Un'ulteriore analisi rivela che il pilotaggio mostra una robustezza e una flessibilità superiori, specialmente in scenari avversari. Applichiamo inoltre la strategia di pilotaggio al modello di ragionamento su larga scala, confermandone l'efficacia nel controllo preciso del ragionamento.
English
Precise control over language model generation is vital for ensuring both
safety and reliability. Although prompt engineering and steering are commonly
used to intervene in model behaviors, the vast number of parameters in models
often results in highly intertwined internal representations. This
interdependency can limit control precision and sometimes lead to unintended
side effects. Recent research has explored the use of sparse autoencoders (SAE)
to disentangle knowledge in high-dimensional spaces for steering. However,
these applications have been limited to toy tasks owing to the nontrivial issue
of locating atomic knowledge components. In this paper, we propose Steering
Target Atoms (STA), a novel method that isolates and manipulates disentangled
knowledge components to enhance safety. Comprehensive experiments demonstrate
the effectiveness of our approach. Further analysis reveals that steering
exhibits superior robustness and flexibility, particularly in adversarial
scenarios. We also apply the steering strategy to the large reasoning model,
confirming its effectiveness in precise reasoning control.