Jenseits der Prompt-Engineering: Robuste Verhaltenskontrolle in LLMs durch Steuerung von Zielatomen
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms
May 23, 2025
papers.authors: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang
cs.AI
papers.abstract
Eine präzise Steuerung der Generierung von Sprachmodellen ist entscheidend, um sowohl Sicherheit als auch Zuverlässigkeit zu gewährleisten. Obwohl Prompt-Engineering und Lenkung häufig eingesetzt werden, um das Verhalten von Modellen zu beeinflussen, führt die enorme Anzahl von Parametern in den Modellen oft zu stark verflochtenen internen Repräsentationen. Diese Interdependenz kann die Präzision der Steuerung einschränken und manchmal zu unbeabsichtigten Nebeneffekten führen. Aktuelle Forschungen haben die Verwendung von spärlichen Autoencodern (SAE) untersucht, um Wissen in hochdimensionalen Räumen für die Lenkung zu entflechten. Diese Anwendungen waren jedoch aufgrund der nicht trivialen Herausforderung, atomare Wissenskomponenten zu lokalisieren, auf einfache Aufgaben beschränkt. In diesem Artikel schlagen wir Steering Target Atoms (STA) vor, eine neuartige Methode, die entflochtene Wissenskomponenten isoliert und manipuliert, um die Sicherheit zu erhöhen. Umfassende Experimente demonstrieren die Wirksamkeit unseres Ansatzes. Weitere Analysen zeigen, dass die Lenkung eine überlegene Robustheit und Flexibilität aufweist, insbesondere in adversarischen Szenarien. Wir wenden die Lenkungsstrategie auch auf ein großes Reasoning-Modell an und bestätigen deren Wirksamkeit bei der präzisen Steuerung von Schlussfolgerungen.
English
Precise control over language model generation is vital for ensuring both
safety and reliability. Although prompt engineering and steering are commonly
used to intervene in model behaviors, the vast number of parameters in models
often results in highly intertwined internal representations. This
interdependency can limit control precision and sometimes lead to unintended
side effects. Recent research has explored the use of sparse autoencoders (SAE)
to disentangle knowledge in high-dimensional spaces for steering. However,
these applications have been limited to toy tasks owing to the nontrivial issue
of locating atomic knowledge components. In this paper, we propose Steering
Target Atoms (STA), a novel method that isolates and manipulates disentangled
knowledge components to enhance safety. Comprehensive experiments demonstrate
the effectiveness of our approach. Further analysis reveals that steering
exhibits superior robustness and flexibility, particularly in adversarial
scenarios. We also apply the steering strategy to the large reasoning model,
confirming its effectiveness in precise reasoning control.