Steer2Adapt: A Composição Dinâmica de Vetores de Direcionamento Promove uma Adaptação Eficiente de LLMs

Resumo

A orientação por ativação (activation steering) emergiu como uma abordagem promissora para adaptar eficientemente grandes modelos de linguagem (LLMs) a comportamentos específicos de tarefas. No entanto, a maioria dos métodos de orientação existentes depende de uma única direção estática por tarefa ou conceito, tornando-os inflexíveis sob variação de tarefas e inadequados para tarefas complexas que exigem múltiplas capacidades coordenadas. Para superar esta limitação, propomos o STEER2ADAPT, um framework leve que adapta LLMs compondo vetores de orientação em vez de aprender novos do zero. Em muitos domínios (por exemplo, raciocínio ou segurança), as tarefas compartilham um pequeno conjunto de dimensões conceituais subjacentes. O STEER2ADAPT captura essas dimensões como um subespaço semântico prévio, reutilizável e de baixa dimensionalidade, e adapta-se a novas tarefas descobrindo dinamicamente uma combinação linear de vetores de base a partir de apenas um punhado de exemplos. Experimentos em 9 tarefas e 3 modelos, tanto em domínios de raciocínio quanto de segurança, demonstram a eficácia do STEER2ADAPT, alcançando uma melhoria média de 8,2%. Análises extensivas mostram ainda que o STEER2ADAPT é um método de adaptação em tempo de inferência eficiente em dados, estável e transparente para LLMs.

English

Activation steering has emerged as a promising approach for efficiently adapting large language models (LLMs) to downstream behaviors. However, most existing steering methods rely on a single static direction per task or concept, making them inflexible under task variation and inadequate for complex tasks that require multiple coordinated capabilities. To address this limitation, we propose STEER2ADAPT, a lightweight framework that adapts LLMs by composing steering vectors rather than learning new ones from scratch. In many domains (e.g., reasoning or safety), tasks share a small set of underlying concept dimensions. STEER2ADAPT captures these dimensions as a reusable, low-dimensional semantic prior subspace, and adapts to new tasks by dynamically discovering a linear combination of basis vectors from only a handful of examples. Experiments across 9 tasks and 3 models in both reasoning and safety domains demonstrate the effectiveness of STEER2ADAPT, achieving an average improvement of 8.2%. Extensive analyses further show that STEER2ADAPT is a data-efficient, stable, and transparent inference-time adaptation method for LLMs.