Steer2Adapt: La composición dinámica de vectores de direccionamiento permite una adaptación eficiente de los LLM
Steer2Adapt: Dynamically Composing Steering Vectors Elicits Efficient Adaptation of LLMs
February 7, 2026
Autores: Pengrui Han, Xueqiang Xu, Keyang Xuan, Peiyang Song, Siru Ouyang, Runchu Tian, Yuqing Jiang, Cheng Qian, Pengcheng Jiang, Jiashuo Sun, Junxia Cui, Ming Zhong, Ge Liu, Jiawei Han, Jiaxuan You
cs.AI
Resumen
La dirección de activación ha surgido como un enfoque prometedor para adaptar eficientemente los grandes modelos de lenguaje (LLM) a comportamientos posteriores. Sin embargo, la mayoría de los métodos de dirección existentes se basan en una única dirección estática por tarea o concepto, lo que los hace inflexibles ante variaciones de la tarea e inadecuados para tareas complejas que requieren múltiples capacidades coordinadas. Para abordar esta limitación, proponemos STEER2ADAPT, un marco liviano que adapta los LLM componiendo vectores de dirección en lugar de aprender nuevos desde cero. En muchos dominios (por ejemplo, razonamiento o seguridad), las tareas comparten un pequeño conjunto de dimensiones conceptuales subyacentes. STEER2ADAPT captura estas dimensiones como un subespacio semántico previo reutilizable y de baja dimensión, y se adapta a nuevas tareas descubriendo dinámicamente una combinación lineal de vectores base a partir de solo un puñado de ejemplos. Los experimentos en 9 tareas y 3 modelos, tanto en dominios de razonamiento como de seguridad, demuestran la efectividad de STEER2ADAPT, logrando una mejora promedio del 8.2%. Análisis exhaustivos muestran además que STEER2ADAPT es un método de adaptación en tiempo de inferencia eficiente en datos, estable y transparente para LLM.
English
Activation steering has emerged as a promising approach for efficiently adapting large language models (LLMs) to downstream behaviors. However, most existing steering methods rely on a single static direction per task or concept, making them inflexible under task variation and inadequate for complex tasks that require multiple coordinated capabilities. To address this limitation, we propose STEER2ADAPT, a lightweight framework that adapts LLMs by composing steering vectors rather than learning new ones from scratch. In many domains (e.g., reasoning or safety), tasks share a small set of underlying concept dimensions. STEER2ADAPT captures these dimensions as a reusable, low-dimensional semantic prior subspace, and adapts to new tasks by dynamically discovering a linear combination of basis vectors from only a handful of examples. Experiments across 9 tasks and 3 models in both reasoning and safety domains demonstrate the effectiveness of STEER2ADAPT, achieving an average improvement of 8.2%. Extensive analyses further show that STEER2ADAPT is a data-efficient, stable, and transparent inference-time adaptation method for LLMs.