Steer2Adapt: La composizione dinamica dei vettori di steering stimola un adattamento efficiente degli LLM

Abstract

Lo steering di attivazione è emerso come un approccio promettente per adattare efficientemente i grandi modelli linguistici (LLM) a comportamenti downstream. Tuttavia, la maggior parte dei metodi di steering esistenti si basa su una singola direzione statica per compito o concetto, rendendoli inflessibili alle variazioni del compito e inadeguati per compiti complessi che richiedono capacità multiple coordinate. Per affrontare questa limitazione, proponiamo STEER2ADAPT, un framework leggero che adatta gli LLM componendo vettori di steering piuttosto che apprendendone di nuovi da zero. In molti domini (ad esempio, il ragionamento o la sicurezza), i compiti condividono un piccolo insieme di dimensioni concettuali sottostanti. STEER2ADAPT cattura queste dimensioni come un sottospazio semantico precedente riutilizzabile e a bassa dimensionalità, e si adatta a nuovi compiti scoprendo dinamicamente una combinazione lineare di vettori di base a partire da solo una manciata di esempi. Esperimenti su 9 compiti e 3 modelli, sia nel dominio del ragionamento che della sicurezza, dimostrano l'efficacia di STEER2ADAPT, ottenendo un miglioramento medio dell'8.2%. Analisi estensive mostrano inoltre che STEER2ADAPT è un metodo di adattamento al momento dell'inferenza per LLM efficiente in termini di dati, stabile e trasparente.

English

Activation steering has emerged as a promising approach for efficiently adapting large language models (LLMs) to downstream behaviors. However, most existing steering methods rely on a single static direction per task or concept, making them inflexible under task variation and inadequate for complex tasks that require multiple coordinated capabilities. To address this limitation, we propose STEER2ADAPT, a lightweight framework that adapts LLMs by composing steering vectors rather than learning new ones from scratch. In many domains (e.g., reasoning or safety), tasks share a small set of underlying concept dimensions. STEER2ADAPT captures these dimensions as a reusable, low-dimensional semantic prior subspace, and adapts to new tasks by dynamically discovering a linear combination of basis vectors from only a handful of examples. Experiments across 9 tasks and 3 models in both reasoning and safety domains demonstrate the effectiveness of STEER2ADAPT, achieving an average improvement of 8.2%. Extensive analyses further show that STEER2ADAPT is a data-efficient, stable, and transparent inference-time adaptation method for LLMs.

Steer2Adapt: La composizione dinamica dei vettori di steering stimola un adattamento efficiente degli LLM

Steer2Adapt: Dynamically Composing Steering Vectors Elicits Efficient Adaptation of LLMs

Abstract

Support