ASA: Ingegneria delle Rappresentazioni Senza Addestramento per Agenti con Capacità di Utilizzo di Strumenti

Abstract

L'adattamento degli agenti LLM all'utilizzo di strumenti domain-specific rimane notevolmente fragile in contesti con interfacce in evoluzione. L'ingegnerizzazione dei prompt e degli schemi è facile da implementare ma spesso fragile in caso di distribuzione non stazionaria e parser rigidi, mentre il fine-tuning continuo ed efficiente in parametri migliora l'affidabilità al costo di addestramento, manutenzione e potenziale oblio. Identifichiamo una critica modalità di fallimento dell'Agente Pigro (Lazy Agent), in cui la necessità di utilizzare uno strumento è decodificabile quasi perfettamente dalle attivazioni degli strati intermedi, eppure il modello rimane conservativo nell'entrare in modalità strumento, rivelando un divario tra rappresentazione e comportamento. Proponiamo l'Activation Steering Adapter (ASA), un controllore senza addestramento che opera durante l'inferenza, esegue un intervento one-shot a livello degli strati intermedi e indirizza i domini di strumenti tramite una miscela condizionata da un router di vettori di steering, con un gate con segno guidato da una sonda per amplificare la vera intenzione sopprimendo i trigger spurii. Su MTU-Bench con Qwen2.5-1.5B, l'ASA migliora l'F1 rigoroso dell'uso degli strumenti da 0,18 a 0,50 riducendo allo stesso tempo il tasso di falsi positivi da 0,15 a 0,05, utilizzando solo circa 20KB di risorse portabili e nessun aggiornamento dei pesi.

English

Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.

ASA: Ingegneria delle Rappresentazioni Senza Addestramento per Agenti con Capacità di Utilizzo di Strumenti

ASA: Training-Free Representation Engineering for Tool-Calling Agents

Abstract

Support