ChatPaper.aiChatPaper

Steer2Adapt: 스티어링 벡터 동적 구성을 통한 LLM의 효율적 적응 유도

Steer2Adapt: Dynamically Composing Steering Vectors Elicits Efficient Adaptation of LLMs

February 7, 2026
저자: Pengrui Han, Xueqiang Xu, Keyang Xuan, Peiyang Song, Siru Ouyang, Runchu Tian, Yuqing Jiang, Cheng Qian, Pengcheng Jiang, Jiashuo Sun, Junxia Cui, Ming Zhong, Ge Liu, Jiawei Han, Jiaxuan You
cs.AI

초록

액티베이션 스티어링(Activation steering)은 대규모 언어 모델(LLM)을 다운스트림 작업에 효율적으로 적응시키기 위한 유망한 접근법으로 부상하고 있다. 그러나 기존 대부분의 스티어링 방법은 작업 또는 개념별로 단일 정적 방향에 의존하므로, 작업 변동성이 있는 상황에서 유연성이 부족하고 여러 조정된 능력을 필요로 하는 복잡한 작업에는 부적합하다는 한계가 있다. 이러한 한계를 해결하기 위해 본 연구에서는 새로운 스티어링 벡터를 처음부터 학습하는 대신, 기존 스티어링 벡터를 구성(composing)하여 LLM을 적응시키는 경량 프레임워크인 STEER2ADAPT를 제안한다. 추론이나 안전성과 같은 많은 영역에서 작업들은 소수의 공통 기본 개념 차원을 공유한다. STEER2ADAPT는 이러한 차원들을 재사용 가능한 저차원 의미론적 사전 부분공간(semantic prior subspace)으로 포착하며, 소수의 예시만으로부터 기저 벡터(basis vector)들의 선형 결합을 동적으로 발견하여 새로운 작업에 적응한다. 추론 및 안전성 영역에서 3가지 모델과 9가지 작업에 대한 실험을 통해 STEER2ADAPT의 효과성을 입증하였으며, 평균 8.2%의 성능 향상을 달성했다. 다양한 분석을 통해 STEER2ADAPT가 데이터 효율적이고 안정적이며 투명한 추론 시점 적응 방법임을 추가로 확인하였다.
English
Activation steering has emerged as a promising approach for efficiently adapting large language models (LLMs) to downstream behaviors. However, most existing steering methods rely on a single static direction per task or concept, making them inflexible under task variation and inadequate for complex tasks that require multiple coordinated capabilities. To address this limitation, we propose STEER2ADAPT, a lightweight framework that adapts LLMs by composing steering vectors rather than learning new ones from scratch. In many domains (e.g., reasoning or safety), tasks share a small set of underlying concept dimensions. STEER2ADAPT captures these dimensions as a reusable, low-dimensional semantic prior subspace, and adapts to new tasks by dynamically discovering a linear combination of basis vectors from only a handful of examples. Experiments across 9 tasks and 3 models in both reasoning and safety domains demonstrate the effectiveness of STEER2ADAPT, achieving an average improvement of 8.2%. Extensive analyses further show that STEER2ADAPT is a data-efficient, stable, and transparent inference-time adaptation method for LLMs.
PDF91February 12, 2026