프롬프트 엔지니어링을 넘어서: 스티어링을 통한 LLM의 강력한 행동 제어 타겟 원자
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms
May 23, 2025
저자: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang
cs.AI
초록
언어 모델 생성에 대한 정밀한 제어는 안전성과 신뢰성을 보장하는 데 필수적입니다. 프롬프트 엔지니어링과 스티어링(steering)이 모델 행동에 개입하는 데 흔히 사용되지만, 모델 내부의 방대한 파라미터 수는 종종 매우 복잡하게 얽힌 내부 표현을 초래합니다. 이러한 상호의존성은 제어 정밀도를 제한하고 때로는 의도치 않은 부작용을 일으킬 수 있습니다. 최근 연구에서는 고차원 공간에서 지식을 분리하여 스티어링을 수행하기 위해 희소 오토인코더(SAE)를 활용하는 방법을 탐구해 왔습니다. 그러나 이러한 적용은 원자적 지식 구성요소를 찾는 데 있어 비사소한 문제로 인해 단순한 작업에만 제한되어 왔습니다. 본 논문에서는 분리된 지식 구성요소를 격리하고 조작하여 안전성을 강화하는 새로운 방법인 Steering Target Atoms(STA)를 제안합니다. 포괄적인 실험을 통해 우리의 접근법이 효과적임을 입증하였습니다. 추가 분석 결과, 특히 적대적 시나리오에서 스티어링이 우수한 견고성과 유연성을 보이는 것으로 나타났습니다. 또한, 스티어링 전략을 대규모 추론 모델에 적용하여 정밀한 추론 제어에서의 효과를 확인하였습니다.
English
Precise control over language model generation is vital for ensuring both
safety and reliability. Although prompt engineering and steering are commonly
used to intervene in model behaviors, the vast number of parameters in models
often results in highly intertwined internal representations. This
interdependency can limit control precision and sometimes lead to unintended
side effects. Recent research has explored the use of sparse autoencoders (SAE)
to disentangle knowledge in high-dimensional spaces for steering. However,
these applications have been limited to toy tasks owing to the nontrivial issue
of locating atomic knowledge components. In this paper, we propose Steering
Target Atoms (STA), a novel method that isolates and manipulates disentangled
knowledge components to enhance safety. Comprehensive experiments demonstrate
the effectiveness of our approach. Further analysis reveals that steering
exhibits superior robustness and flexibility, particularly in adversarial
scenarios. We also apply the steering strategy to the large reasoning model,
confirming its effectiveness in precise reasoning control.Summary
AI-Generated Summary