ASA: Обучение без тренировки для инженерии представлений в агентах с вызовом инструментов

Аннотация

Адаптация агентов больших языковых моделей (LLM) к предметно-ориентированному вызову инструментов остается заметно хрупкой при изменяющихся интерфейсах. Инженерия промптов и схем проста в развертывании, но часто ненадежна при сдвиге распределения данных и использовании строгих парсеров, тогда как непрерывная дообучение с параметрической эффективностью повышает надежность ценой обучения, поддержки и потенциального забывания. Мы выявляем критический режим отказа «Ленивого Агента», при котором необходимость использования инструмента почти идеально декодируется из активаций средних слоев, однако модель остается консервативной в переходе в инструментальный режим, что раскрывает разрыв между репрезентацией и поведением. Мы предлагаем Адаптер управления через активации (Activation Steering Adapter, ASA) — беспараметрический контроллер времени инференции, который выполняет одношаговое вмешательство на среднем слое и нацеливается на инструментальные домены через условную смесь векторов управления, управляемую маршрутизатором, с использованием знакового вентиля, направляемого пробником, для усиления истинного намерения при подавлении ложных триггеров. На MTU-Bench с моделью Qwen2.5-1.5B ASA улучшает F1-меру строгого использования инструментов с 0.18 до 0.50, одновременно снижая уровень ложных срабатываний с 0.15 до 0.05, используя лишь около 20 КБ портируемых ресурсов и не обновляя веса модели.

English

Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.

ASA: Обучение без тренировки для инженерии представлений в агентах с вызовом инструментов

ASA: Training-Free Representation Engineering for Tool-Calling Agents

Аннотация

Support