Steer2Adapt: Dynamische Komposition von Steuervektoren bewirkt effiziente Anpassung von LLMs
Steer2Adapt: Dynamically Composing Steering Vectors Elicits Efficient Adaptation of LLMs
February 7, 2026
papers.authors: Pengrui Han, Xueqiang Xu, Keyang Xuan, Peiyang Song, Siru Ouyang, Runchu Tian, Yuqing Jiang, Cheng Qian, Pengcheng Jiang, Jiashuo Sun, Junxia Cui, Ming Zhong, Ge Liu, Jiawei Han, Jiaxuan You
cs.AI
papers.abstract
Aktivierungssteuerung hat sich als vielversprechender Ansatz erwiesen, um große Sprachmodelle (LLMs) effizient an nachgelagerte Verhaltensweisen anzupassen. Die meisten bestehenden Steuerungsmethoden stützen sich jedoch auf eine einzige statische Richtung pro Aufgabe oder Konzept, was sie unflexibel bei Aufgabenvarianz macht und für komplexe Aufgaben unzureichend ist, die mehrere koordinierte Fähigkeiten erfordern. Um diese Einschränkung zu adressieren, schlagen wir STEER2ADAPT vor, ein leichtgewichtiges Framework, das LLMs anpasst, indem es Steuerungsvektoren kombiniert, anstatt neue von Grund auf zu lernen. In vielen Domänen (z.B. Reasoning oder Sicherheit) teilen Aufgaben eine kleine Menge zugrunde liegender Konzeptdimensionen. STEER2ADAPT erfasst diese Dimensionen als einen wiederverwendbaren, niedrigdimensionalen semantischen Prior-Unterraum und passt sich an neue Aufgaben an, indem es dynamisch eine Linearkombination von Basisvektoren aus nur wenigen Beispielen entdeckt. Experimente über 9 Aufgaben und 3 Modelle in den Domänen Reasoning und Sicherheit demonstrieren die Wirksamkeit von STEER2ADAPT mit einer durchschnittlichen Verbesserung von 8,2%. Umfassende Analysen zeigen weiterhin, dass STEER2ADAPT eine dateneffiziente, stabile und transparente Inferenzzeit-Anpassungsmethode für LLMs ist.
English
Activation steering has emerged as a promising approach for efficiently adapting large language models (LLMs) to downstream behaviors. However, most existing steering methods rely on a single static direction per task or concept, making them inflexible under task variation and inadequate for complex tasks that require multiple coordinated capabilities. To address this limitation, we propose STEER2ADAPT, a lightweight framework that adapts LLMs by composing steering vectors rather than learning new ones from scratch. In many domains (e.g., reasoning or safety), tasks share a small set of underlying concept dimensions. STEER2ADAPT captures these dimensions as a reusable, low-dimensional semantic prior subspace, and adapts to new tasks by dynamically discovering a linear combination of basis vectors from only a handful of examples. Experiments across 9 tasks and 3 models in both reasoning and safety domains demonstrate the effectiveness of STEER2ADAPT, achieving an average improvement of 8.2%. Extensive analyses further show that STEER2ADAPT is a data-efficient, stable, and transparent inference-time adaptation method for LLMs.