ASA: Ingeniería de Representaciones sin Entrenamiento para Agentes con Capacidad de Uso de Herramientas

Resumen

La adaptación de agentes de LLM al uso de herramientas específicas de dominio sigue siendo notablemente frágil ante interfaces en evolución. La ingeniería de prompts y esquemas es fácil de implementar pero a menudo resulta frágil ante cambios de distribución y analizadores estrictos, mientras que el fine-tuning continuo y eficiente en parámetros mejora la confiabilidad a costa del entrenimiento, mantenimiento y posible olvido. Identificamos un modo de fallo crítico del Agente Perezoso (Lazy Agent) donde la necesidad de herramientas es casi perfectamente decodificable a partir de activaciones de capas intermedias, pero el modelo se mantiene conservador al entrar en modo herramienta, revelando una brecha entre representación y comportamiento. Proponemos el Adaptador de Direccionamiento por Activación (ASA), un controlador sin entrenamiento que opera en tiempo de inferencia, realiza una intervención única en capas intermedias y se dirige a dominios de herramientas mediante una mezcla condicionada por un enrutador de vectores de direccionamiento con una compuerta signada guiada por un probe para amplificar la intención real mientras suprime activaciones espurias. En MTU-Bench con Qwen2.5-1.5B, ASA mejora el F1 estricto de uso de herramientas de 0.18 a 0.50 mientras reduce la tasa de falsos positivos de 0.15 a 0.05, utilizando solo unos 20KB de recursos portátiles y sin actualizaciones de pesos.

English

Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.

ASA: Ingeniería de Representaciones sin Entrenamiento para Agentes con Capacidad de Uso de Herramientas

ASA: Training-Free Representation Engineering for Tool-Calling Agents

Resumen

Support