ASA: Engenharia de Representação Sem Treinamento para Agentes de Chamada de Ferramentas

Resumo

A adaptação de agentes de LLM para a chamada de ferramentas específicas de domínio continua notavelmente frágil sob interfaces em evolução. A engenharia de prompts e esquemas é fácil de implantar, mas frequentemente frágil sob mudanças de distribuição e analisadores rigorosos, enquanto o *fine-tuning* contínuo e eficiente em parâmetros melhora a confiabilidade ao custo de treinamento, manutenção e possível esquecimento. Identificamos um modo crítico de falha do Agente Preguiçoso, onde a necessidade da ferramenta é quase perfeitamente decodificável a partir de ativações de camadas intermediárias, mas o modelo permanece conservador ao entrar no modo de ferramenta, revelando uma lacuna entre representação e comportamento. Propomos o *Activation Steering Adapter* (ASA), um controlador sem treinamento, operando em tempo de inferência, que realiza uma intervenção única em camada intermediária e direciona domínios de ferramentas via uma mistura condicionada por roteador de vetores de direcionamento, com um portão sinalizado guiado por sonda para amplificar a intenção real enquanto suprime gatilhos espúrios. No MTU-Bench com Qwen2.5-1.5B, o ASA melhora o F1 estrito de uso de ferramentas de 0,18 para 0,50 enquanto reduz a taxa de falsos positivos de 0,15 para 0,05, usando apenas cerca de 20 KB de recursos portáteis e sem atualizações de pesos.

English

Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.