Обучение настройке агентных систем искусственного интеллекта
Learning to Configure Agentic AI Systems
February 12, 2026
Авторы: Aditya Taparia, Som Sagar, Ransalu Senanayake
cs.AI
Аннотация
Настройка систем агентов на основе языковых моделей предполагает выбор рабочих процессов, инструментов, лимитов токенов и промптов из обширного комбинаторного пространства проектирования и сегодня обычно осуществляется с помощью фиксированных крупных шаблонов или тщательно настроенных эвристик. Это приводит к хрупкому поведению и неоправданным вычислительным затратам, поскольку одна и та же громоздкая конфигурация часто применяется как к простым, так и к сложным входным запросам. Мы формулируем конфигурацию агента как проблему принятия решений для каждого запроса и представляем ARC (Agentic Resource & Configuration learner) — метод, который изучает облегченную иерархическую политику с помощью обучения с подкреплением, чтобы динамически адаптировать эти конфигурации. В различных тестах, охватывающих задачи логического вывода и вопросно-ответные системы с использованием инструментов, обученная политика стабильно превосходит тщательно разработанные вручную и другие базовые методы, достигая до 25% более высокой точности решения задач при одновременном снижении затрат на токены и время выполнения. Эти результаты демонстрируют, что обучение конфигураций агентов для каждого запроса является мощной альтернативой подходам «универсального размера».
English
Configuring LLM-based agent systems involves choosing workflows, tools, token budgets, and prompts from a large combinatorial design space, and is typically handled today by fixed large templates or hand-tuned heuristics. This leads to brittle behavior and unnecessary compute, since the same cumbersome configuration is often applied to both easy and hard input queries. We formulate agent configuration as a query-wise decision problem and introduce ARC (Agentic Resource & Configuration learner), which learns a light-weight hierarchical policy using reinforcement learning to dynamically tailor these configurations. Across multiple benchmarks spanning reasoning and tool-augmented question answering, the learned policy consistently outperforms strong hand-designed and other baselines, achieving up to 25% higher task accuracy while also reducing token and runtime costs. These results demonstrate that learning per-query agent configurations is a powerful alternative to "one size fits all" designs.