Apprendre à configurer des systèmes d'IA agentiques

papers.abstract

La configuration des systèmes d'agents basés sur LLM implique de choisir des flux de travail, des outils, des budgets de tokens et des prompts dans un vaste espace de conception combinatoire, et est généralement gérée aujourd'hui par de grands modèles fixes ou des heuristiques ajustées manuellement. Cela conduit à un comportement fragile et à une utilisation inutile de ressources de calcul, puisque la même configuration lourde est souvent appliquée à la fois aux requêtes d'entrée faciles et difficiles. Nous formulons la configuration d'agent comme un problème décisionnel par requête et introduisons ARC (Agentic Resource & Configuration learner), qui apprend une politique hiérarchique légère en utilisant l'apprentissage par renforcement pour adapter dynamiquement ces configurations. Sur plusieurs benchmarks couvrant le raisonnement et la réponse à des questions assistée par outils, la politique apprise surpasse systématiquement des bases de référence solides conçues manuellement et d'autres approches, atteignant jusqu'à 25 % de précision de tâche supérieure tout en réduisant également les coûts en tokens et en temps d'exécution. Ces résultats démontrent que l'apprentissage de configurations d'agents par requête constitue une alternative puissante aux conceptions universelles.

English

Configuring LLM-based agent systems involves choosing workflows, tools, token budgets, and prompts from a large combinatorial design space, and is typically handled today by fixed large templates or hand-tuned heuristics. This leads to brittle behavior and unnecessary compute, since the same cumbersome configuration is often applied to both easy and hard input queries. We formulate agent configuration as a query-wise decision problem and introduce ARC (Agentic Resource & Configuration learner), which learns a light-weight hierarchical policy using reinforcement learning to dynamically tailor these configurations. Across multiple benchmarks spanning reasoning and tool-augmented question answering, the learned policy consistently outperforms strong hand-designed and other baselines, achieving up to 25% higher task accuracy while also reducing token and runtime costs. These results demonstrate that learning per-query agent configurations is a powerful alternative to "one size fits all" designs.

Apprendre à configurer des systèmes d'IA agentiques

Learning to Configure Agentic AI Systems

papers.abstract

Support