ASA : Ingénierie de représentation sans entraînement pour agents d'appel d'outils

papers.abstract

L'adaptation des agents LLM à l'utilisation d'outils spécifiques à un domaine reste particulièrement fragile face à des interfaces en évolution. L'ingénierie de prompts et de schémas est facile à déployer mais souvent instable face aux décalages de distribution et aux analyseurs stricts, tandis que le fine-tuning continu à efficacité paramétrique améliore la fiabilité au prix d'un entraînement, d'une maintenance et d'un oubli potentiel. Nous identifions un mode de défaillance critique de l'Agent Paresseux où la nécessité d'utiliser un outil est presque parfaitement déchiffrable à partir des activations des couches intermédiaires, mais où le modèle reste conservateur pour entrer en mode outil, révélant un écart entre représentation et comportement. Nous proposons l'Adaptateur de Pilotage par Activation (ASA), un contrôleur non entraîné fonctionnant à l'inférence qui effectue une intervention unique sur les couches intermédiaires et cible les domaines d'outils via un mélange conditionné par un routeur de vecteurs de pilotage avec une porte signée guidée par une sonde pour amplifier l'intention réelle tout en supprimant les déclencheurs parasites. Sur MTU-Bench avec Qwen2.5-1.5B, ASA améliore le F1 strict d'utilisation d'outils de 0,18 à 0,50 tout en réduisant le taux de faux positifs de 0,15 à 0,05, en utilisant seulement environ 20 Ko d'actifs portables et sans mise à jour des poids.

English

Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.

ASA : Ingénierie de représentation sans entraînement pour agents d'appel d'outils

ASA: Training-Free Representation Engineering for Tool-Calling Agents

papers.abstract

Support