ChatPaper.aiChatPaper

Voorbij Prompt Engineering: Robuust Gedragsbeheer in LLM's via Sturing van Doelatomen

Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

May 23, 2025
Auteurs: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang
cs.AI

Samenvatting

Precieze controle over de generatie van taalmodeluitvoer is essentieel om zowel veiligheid als betrouwbaarheid te waarborgen. Hoewel prompt engineering en sturing vaak worden gebruikt om in te grijpen in modelgedrag, resulteert het enorme aantal parameters in modellen vaak in sterk verweven interne representaties. Deze onderlinge afhankelijkheid kan de controleprecisie beperken en soms leiden tot onbedoelde neveneffecten. Recent onderzoek heeft het gebruik van sparse autoencoders (SAE) verkend om kennis in hoogdimensionale ruimten te ontwarren voor sturing. Deze toepassingen zijn echter beperkt gebleven tot speeltaken vanwege de niet-triviale uitdaging om atomische kenniscomponenten te lokaliseren. In dit artikel stellen we Steering Target Atoms (STA) voor, een nieuwe methode die ontwarde kenniscomponenten isoleert en manipuleert om de veiligheid te verbeteren. Uitgebreide experimenten demonstreren de effectiviteit van onze aanpak. Verdere analyse toont aan dat sturing superieure robuustheid en flexibiliteit vertoont, met name in adversariële scenario's. We passen de sturingsstrategie ook toe op het grote redeneermodel, wat de effectiviteit ervan bevestigt in precieze redeneercontrole.
English
Precise control over language model generation is vital for ensuring both safety and reliability. Although prompt engineering and steering are commonly used to intervene in model behaviors, the vast number of parameters in models often results in highly intertwined internal representations. This interdependency can limit control precision and sometimes lead to unintended side effects. Recent research has explored the use of sparse autoencoders (SAE) to disentangle knowledge in high-dimensional spaces for steering. However, these applications have been limited to toy tasks owing to the nontrivial issue of locating atomic knowledge components. In this paper, we propose Steering Target Atoms (STA), a novel method that isolates and manipulates disentangled knowledge components to enhance safety. Comprehensive experiments demonstrate the effectiveness of our approach. Further analysis reveals that steering exhibits superior robustness and flexibility, particularly in adversarial scenarios. We also apply the steering strategy to the large reasoning model, confirming its effectiveness in precise reasoning control.
PDF142May 28, 2025