Lernen, agentische KI-Systeme zu konfigurieren
Learning to Configure Agentic AI Systems
February 12, 2026
papers.authors: Aditya Taparia, Som Sagar, Ransalu Senanayake
cs.AI
papers.abstract
Die Konfiguration agentenbasierter Systeme auf LLM-Basis erfordert die Auswahl von Workflows, Werkzeugen, Token-Budgets und Prompts aus einem großen kombinatorischen Designraum und wird heute typischerweise durch feste große Vorlagen oder manuell optimierte Heuristiken gehandhabt. Dies führt zu sprödem Verhalten und unnötigem Rechenaufwand, da dieselbe umständliche Konfiguration oft sowohl für einfache als auch für schwierige Eingabeanfragen angewendet wird. Wir formulieren die Agentenkonfiguration als ein anfragenspezifisches Entscheidungsproblem und führen ARC (Agentic Resource & Configuration Learner) ein, das eine leichtgewichtige hierarchische Policy mittels Reinforcement Learning erlernt, um diese Konfigurationen dynamisch anzupassen. In mehreren Benchmarks, die reasoning und werkzeuggestützte Fragebeantwortung umfassen, übertrifft die gelernte Policy durchgängig starke manuell gestaltete und andere Baseline-Ansätze, erreicht bis zu 25 % höhere Aufgabengenauigkeit und reduziert gleichzeitig Token- und Laufzeitkosten. Diese Ergebnisse demonstrieren, dass das anfragenspezifische Lernen von Agentenkonfigurationen eine leistungsstarke Alternative zu "One-size-fits-all"-Designs darstellt.
English
Configuring LLM-based agent systems involves choosing workflows, tools, token budgets, and prompts from a large combinatorial design space, and is typically handled today by fixed large templates or hand-tuned heuristics. This leads to brittle behavior and unnecessary compute, since the same cumbersome configuration is often applied to both easy and hard input queries. We formulate agent configuration as a query-wise decision problem and introduce ARC (Agentic Resource & Configuration learner), which learns a light-weight hierarchical policy using reinforcement learning to dynamically tailor these configurations. Across multiple benchmarks spanning reasoning and tool-augmented question answering, the learned policy consistently outperforms strong hand-designed and other baselines, achieving up to 25% higher task accuracy while also reducing token and runtime costs. These results demonstrate that learning per-query agent configurations is a powerful alternative to "one size fits all" designs.