ChatPaper.aiChatPaper

Au-delà de l'ingénierie des prompts : Contrôle robuste des comportements dans les LLM via les atomes de pilotage cibles

Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

May 23, 2025
Auteurs: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang
cs.AI

Résumé

Le contrôle précis de la génération des modèles de langage est essentiel pour garantir à la fois la sécurité et la fiabilité. Bien que l'ingénierie des prompts et le pilotage soient couramment utilisés pour intervenir sur les comportements des modèles, le grand nombre de paramètres dans ces modèles entraîne souvent des représentations internes fortement imbriquées. Cette interdépendance peut limiter la précision du contrôle et parfois provoquer des effets secondaires indésirables. Des recherches récentes ont exploré l'utilisation d'autoencodeurs épars (SAE) pour démêler les connaissances dans des espaces à haute dimension afin de faciliter le pilotage. Cependant, ces applications ont été limitées à des tâches simplifiées en raison de la difficulté non triviale de localiser les composants de connaissances atomiques. Dans cet article, nous proposons les **Atomes Cibles de Pilotage (STA)**, une méthode novatrice qui isole et manipule des composants de connaissances démêlés pour renforcer la sécurité. Des expériences approfondies démontrent l'efficacité de notre approche. Une analyse plus poussée révèle que le pilotage présente une robustesse et une flexibilité supérieures, en particulier dans des scénarios adverses. Nous appliquons également la stratégie de pilotage à un modèle de raisonnement à grande échelle, confirmant son efficacité dans le contrôle précis du raisonnement.
English
Precise control over language model generation is vital for ensuring both safety and reliability. Although prompt engineering and steering are commonly used to intervene in model behaviors, the vast number of parameters in models often results in highly intertwined internal representations. This interdependency can limit control precision and sometimes lead to unintended side effects. Recent research has explored the use of sparse autoencoders (SAE) to disentangle knowledge in high-dimensional spaces for steering. However, these applications have been limited to toy tasks owing to the nontrivial issue of locating atomic knowledge components. In this paper, we propose Steering Target Atoms (STA), a novel method that isolates and manipulates disentangled knowledge components to enhance safety. Comprehensive experiments demonstrate the effectiveness of our approach. Further analysis reveals that steering exhibits superior robustness and flexibility, particularly in adversarial scenarios. We also apply the steering strategy to the large reasoning model, confirming its effectiveness in precise reasoning control.

Summary

AI-Generated Summary

PDF142May 28, 2025