ASA: Training-vrije representatie-engineering voor gereedschapsaanroepende agents

Samenvatting

Het aanpassen van LLM-agents aan domeinspecifieke toolaanroeping blijft opvallend broos bij evoluerende interfaces. Prompt- en schema-engineering is eenvoudig te implementeren, maar vaak kwetsbaar onder distributieverschuivingen en strikte parsers, terwijl continue parameter-efficiënte fine-tuning de betrouwbaarheid verbetert ten koste van training, onderhoud en mogelijk vergeten. Wij identificeren een kritieke Lazy Agent-faalmode waarbij toolnoodzaak bijna perfect decodeerbaar is uit middenlaag-activaties, maar het model conservatief blijft in het activeren van toolmodus, wat een representatie-gedragskloof blootlegt. Wij stellen Activation Steering Adapter (ASA) voor, een trainingsvrije, inference-time controller die een eenmalige interventie op middenlaagniveau uitvoert en zich richt op tool-domeinen via een router-geconditioneerd mengsel van stuurvectoren met een probe-gestuurde signed gate om ware intentie te versterken en valse triggers te onderdrukken. Op MTU-Bench met Qwen2.5-1.5B verbetert ASA de strikte tool-use F1-score van 0,18 naar 0,50 terwijl de false-positive-rate daalt van 0,15 naar 0,05, met slechts ongeveer 20KB aan draagbare assets en geen gewichts-updates.

English

Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.

ASA: Training-vrije representatie-engineering voor gereedschapsaanroepende agents

ASA: Training-Free Representation Engineering for Tool-Calling Agents

Samenvatting

Support