ASA: Trainingsfreie Repräsentationsentwicklung für werkzeugaufrufende Agenten

papers.abstract

Die Anpassung von LLM-Agenten an domänenspezifische Tool-Aufrufe bleibt bei sich entwickelnden Schnittstellen bemerkenswert spröde. Prompt- und Schema-Engineering ist einfach einzusetzen, aber oft anfällig bei Distributionsverschiebungen und strengen Parsern, während kontinuierliches, parameter-effizientes Fine-Tuning die Zuverlässigkeit auf Kosten von Training, Wartung und potenziellem Vergessen verbessert. Wir identifizieren einen kritischen Lazy-Agent-Fehlermodus, bei dem die Tool-Notwendigkeit nahezu perfekt aus Mid-Layer-Aktivierungen decodierbar ist, das Modell jedoch konservativ beim Wechsel in den Tool-Modus bleibt – was eine Repräsentations-Verhaltens-Lücke offenbart. Wir schlagen den Activation Steering Adapter (ASA) vor, einen trainingsfreien Inferenzzeit-Controller, der einen Single-Shot-Mid-Layer-Eingriff durchführt und Tool-Domänen über einen router-konditionierten Mix von Steuerungsvektoren ansteuert, mit einer probe-geführten signierten Gate-Funktion zur Verstärkung echter Intentionen bei Unterdrückung falscher Trigger. Auf MTU-Bench mit Qwen2.5-1.5B verbessert ASA die strikte Tool-Use-F1 von 0,18 auf 0,50 und reduziert die False-Positive-Rate von 0,15 auf 0,05, bei Nutzung von nur ca. 20 KB portabler Assets und ohne Gewichtsaktualisierungen.

English

Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.

ASA: Trainingsfreie Repräsentationsentwicklung für werkzeugaufrufende Agenten

ASA: Training-Free Representation Engineering for Tool-Calling Agents

papers.abstract

Support