Steer2Adapt: Dynamische Samenstelling van Stuurvectoren Veroorzaakt Efficiënte Adaptatie van LLM's

Samenvatting

Activation steering is naar voren gekomen als een veelbelovende aanpak om grote taalmodellen (LLM's) efficiënt aan te passen voor downstream gedrag. De meeste bestaande stuurmethoden zijn echter gebaseerd op een enkele statische richting per taak of concept, waardoor ze inflexibel zijn bij taakvariatie en ontoereikend voor complexe taken die meerdere gecoördineerde capaciteiten vereisen. Om deze beperking aan te pakken, stellen we STEER2ADAPT voor, een lichtgewicht framework dat LLM's aanpast door stuurvectoren te combineren in plaats van nieuwe vectoren vanaf nul te leren. In veel domeinen (bijvoorbeeld redeneren of veiligheid) delen taken een kleine set onderliggende conceptdimensies. STEER2ADAPT vat deze dimensies samen als een herbruikbare, laagdimensionale semantische prior-subruimte, en past zich aan nieuwe taken aan door dynamisch een lineaire combinatie van basisvectoren te ontdekken op basis van slechts een handvol voorbeelden. Experimenten over 9 taken en 3 modellen in zowel de redeneer- als veiligheidsdomeinen tonen de effectiviteit van STEER2ADAPT aan, met een gemiddelde verbetering van 8,2%. Uitgebreide analyses tonen verder aan dat STEER2ADAPT een data-efficiënte, stabiele en transparante aanpassingsmethode is voor LLM's tijdens de inferentiefase.

English

Activation steering has emerged as a promising approach for efficiently adapting large language models (LLMs) to downstream behaviors. However, most existing steering methods rely on a single static direction per task or concept, making them inflexible under task variation and inadequate for complex tasks that require multiple coordinated capabilities. To address this limitation, we propose STEER2ADAPT, a lightweight framework that adapts LLMs by composing steering vectors rather than learning new ones from scratch. In many domains (e.g., reasoning or safety), tasks share a small set of underlying concept dimensions. STEER2ADAPT captures these dimensions as a reusable, low-dimensional semantic prior subspace, and adapts to new tasks by dynamically discovering a linear combination of basis vectors from only a handful of examples. Experiments across 9 tasks and 3 models in both reasoning and safety domains demonstrate the effectiveness of STEER2ADAPT, achieving an average improvement of 8.2%. Extensive analyses further show that STEER2ADAPT is a data-efficient, stable, and transparent inference-time adaptation method for LLMs.

Steer2Adapt: Dynamische Samenstelling van Stuurvectoren Veroorzaakt Efficiënte Adaptatie van LLM's

Steer2Adapt: Dynamically Composing Steering Vectors Elicits Efficient Adaptation of LLMs

Samenvatting

Support