プロンプトエンジニアリングを超えて：ターゲットアトムによるLLMの堅牢な行動制御

要旨

言語モデルの生成を精密に制御することは、安全性と信頼性を確保する上で極めて重要です。プロンプトエンジニアリングやステアリングはモデルの挙動に介入するために一般的に使用されますが、モデルが持つ膨大なパラメータ数は、しばしば高度に絡み合った内部表現を生み出します。この相互依存性は制御精度を制限し、時として意図しない副作用を引き起こす可能性があります。最近の研究では、高次元空間における知識を分離してステアリングを行うためにスパースオートエンコーダ（SAE）の使用が探求されています。しかし、これらの応用は、原子知識コンポーネントを特定するという非自明な課題のために、トイタスクに限定されてきました。本論文では、分離された知識コンポーネントを単離し操作することで安全性を向上させる新たな手法、Steering Target Atoms（STA）を提案します。包括的な実験により、本手法の有効性が実証されています。さらに分析を行った結果、ステアリングは特に敵対的シナリオにおいて優れた堅牢性と柔軟性を示すことが明らかになりました。また、ステアリング戦略を大規模推論モデルに適用し、精密な推論制御におけるその有効性を確認しました。

English

Precise control over language model generation is vital for ensuring both safety and reliability. Although prompt engineering and steering are commonly used to intervene in model behaviors, the vast number of parameters in models often results in highly intertwined internal representations. This interdependency can limit control precision and sometimes lead to unintended side effects. Recent research has explored the use of sparse autoencoders (SAE) to disentangle knowledge in high-dimensional spaces for steering. However, these applications have been limited to toy tasks owing to the nontrivial issue of locating atomic knowledge components. In this paper, we propose Steering Target Atoms (STA), a novel method that isolates and manipulates disentangled knowledge components to enhance safety. Comprehensive experiments demonstrate the effectiveness of our approach. Further analysis reveals that steering exhibits superior robustness and flexibility, particularly in adversarial scenarios. We also apply the steering strategy to the large reasoning model, confirming its effectiveness in precise reasoning control.

プロンプトエンジニアリングを超えて：ターゲットアトムによるLLMの堅牢な行動制御

Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

要旨

Support