프롬프트 엔지니어링을 넘어서: 스티어링을 통한 LLM의 강력한 행동 제어 타겟 원자

초록

언어 모델 생성에 대한 정밀한 제어는 안전성과 신뢰성을 보장하는 데 필수적입니다. 프롬프트 엔지니어링과 스티어링(steering)이 모델 행동에 개입하는 데 흔히 사용되지만, 모델 내부의 방대한 파라미터 수는 종종 매우 복잡하게 얽힌 내부 표현을 초래합니다. 이러한 상호의존성은 제어 정밀도를 제한하고 때로는 의도치 않은 부작용을 일으킬 수 있습니다. 최근 연구에서는 고차원 공간에서 지식을 분리하여 스티어링을 수행하기 위해 희소 오토인코더(SAE)를 활용하는 방법을 탐구해 왔습니다. 그러나 이러한 적용은 원자적 지식 구성요소를 찾는 데 있어 비사소한 문제로 인해 단순한 작업에만 제한되어 왔습니다. 본 논문에서는 분리된 지식 구성요소를 격리하고 조작하여 안전성을 강화하는 새로운 방법인 Steering Target Atoms(STA)를 제안합니다. 포괄적인 실험을 통해 우리의 접근법이 효과적임을 입증하였습니다. 추가 분석 결과, 특히 적대적 시나리오에서 스티어링이 우수한 견고성과 유연성을 보이는 것으로 나타났습니다. 또한, 스티어링 전략을 대규모 추론 모델에 적용하여 정밀한 추론 제어에서의 효과를 확인하였습니다.

English

Precise control over language model generation is vital for ensuring both safety and reliability. Although prompt engineering and steering are commonly used to intervene in model behaviors, the vast number of parameters in models often results in highly intertwined internal representations. This interdependency can limit control precision and sometimes lead to unintended side effects. Recent research has explored the use of sparse autoencoders (SAE) to disentangle knowledge in high-dimensional spaces for steering. However, these applications have been limited to toy tasks owing to the nontrivial issue of locating atomic knowledge components. In this paper, we propose Steering Target Atoms (STA), a novel method that isolates and manipulates disentangled knowledge components to enhance safety. Comprehensive experiments demonstrate the effectiveness of our approach. Further analysis reveals that steering exhibits superior robustness and flexibility, particularly in adversarial scenarios. We also apply the steering strategy to the large reasoning model, confirming its effectiveness in precise reasoning control.

프롬프트 엔지니어링을 넘어서: 스티어링을 통한 LLM의 강력한 행동 제어 타겟 원자

Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

초록

Support