Steer2Adapt: 動的ステアリングベクトル合成によるLLMの効率的適応
Steer2Adapt: Dynamically Composing Steering Vectors Elicits Efficient Adaptation of LLMs
February 7, 2026
著者: Pengrui Han, Xueqiang Xu, Keyang Xuan, Peiyang Song, Siru Ouyang, Runchu Tian, Yuqing Jiang, Cheng Qian, Pengcheng Jiang, Jiashuo Sun, Junxia Cui, Ming Zhong, Ge Liu, Jiawei Han, Jiaxuan You
cs.AI
要旨
アクティベーション・ステアリングは、大規模言語モデル(LLM)を下流の振る舞いに効率的に適応させる有望な手法として登場している。しかし、既存のステアリング手法の多くは、タスクや概念ごとに単一の静的な方向性に依存しており、タスクの変動に対して柔軟性に欠け、複数の調整された能力を必要とする複雑なタスクには不十分である。この限界に対処するため、我々はSTEER2ADAPTを提案する。これは、新たなステアリングベクトルをゼロから学習するのではなく、それらを合成することでLLMを適応させる軽量フレームワークである。多くの領域(例:推論や安全性)において、タスクは少数の根底にある概念次元を共有している。STEER2ADAPTはこれらの次元を再利用可能な低次元の意味的事前部分空間として捉え、わずかな例から基底ベクトルの線形結合を動的に発見することで新たなタスクに適応する。推論と安全性の領域における9つのタスクと3つのモデルを用いた実験により、STEER2ADAPTの有効性が実証され、平均8.2%の改善が達成された。詳細な分析により、STEER2ADAPTがデータ効率が高く、安定した、透過的な推論時適応手法であることがさらに示された。
English
Activation steering has emerged as a promising approach for efficiently adapting large language models (LLMs) to downstream behaviors. However, most existing steering methods rely on a single static direction per task or concept, making them inflexible under task variation and inadequate for complex tasks that require multiple coordinated capabilities. To address this limitation, we propose STEER2ADAPT, a lightweight framework that adapts LLMs by composing steering vectors rather than learning new ones from scratch. In many domains (e.g., reasoning or safety), tasks share a small set of underlying concept dimensions. STEER2ADAPT captures these dimensions as a reusable, low-dimensional semantic prior subspace, and adapts to new tasks by dynamically discovering a linear combination of basis vectors from only a handful of examples. Experiments across 9 tasks and 3 models in both reasoning and safety domains demonstrate the effectiveness of STEER2ADAPT, achieving an average improvement of 8.2%. Extensive analyses further show that STEER2ADAPT is a data-efficient, stable, and transparent inference-time adaptation method for LLMs.