ChatPaper.aiChatPaper

Leren om Agent-gebaseerde AI-systemen te Configureren

Learning to Configure Agentic AI Systems

February 12, 2026
Auteurs: Aditya Taparia, Som Sagar, Ransalu Senanayake
cs.AI

Samenvatting

Het configureren van op LLM gebaseerde agentsystemen houdt in dat workflows, tools, tokenbudgetten en prompts gekozen moeten worden uit een grote combinatorische ontwerpruimte, en wordt tegenwoordig meestal afgehandeld met vaste, omvangrijke templates of handmatig afgestelde heuristieken. Dit leidt tot broos gedrag en onnodig rekengebruik, omdat dezelfde omslachtige configuratie vaak wordt toegepast op zowel eenvoudige als moeilijke invoerquery's. Wij formuleren agentconfiguratie als een beslissingsprobleem per query en introduceren ARC (Agentic Resource & Configuration learner), dat een lichtgewicht hiërarchisch beleid leert met behulp van reinforcement learning om deze configuraties dynamisch aan te passen. Over meerdere benchmarks voor redeneren en tool-aangevuld vraagbeantwoording heen, presteert het geleerde beleid consistent beter dan sterk handmatig ontworpen en andere baseline-systemen, met tot 25% hogere taaknauwkeurigheid en tegelijkertijd lagere token- en rekentijdkosten. Deze resultaten tonen aan dat het leren van agentconfiguraties per query een krachtig alternatief is voor 'one size fits all'-ontwerpen.
English
Configuring LLM-based agent systems involves choosing workflows, tools, token budgets, and prompts from a large combinatorial design space, and is typically handled today by fixed large templates or hand-tuned heuristics. This leads to brittle behavior and unnecessary compute, since the same cumbersome configuration is often applied to both easy and hard input queries. We formulate agent configuration as a query-wise decision problem and introduce ARC (Agentic Resource & Configuration learner), which learns a light-weight hierarchical policy using reinforcement learning to dynamically tailor these configurations. Across multiple benchmarks spanning reasoning and tool-augmented question answering, the learned policy consistently outperforms strong hand-designed and other baselines, achieving up to 25% higher task accuracy while also reducing token and runtime costs. These results demonstrate that learning per-query agent configurations is a powerful alternative to "one size fits all" designs.
PDF122February 18, 2026