ChatPaper.aiChatPaper

Aprendiendo a Configurar Sistemas de Inteligencia Artificial Agentes.

Learning to Configure Agentic AI Systems

February 12, 2026
Autores: Aditya Taparia, Som Sagar, Ransalu Senanayake
cs.AI

Resumen

La configuración de sistemas de agentes basados en LLM implica seleccionar flujos de trabajo, herramientas, presupuestos de tokens y prompts de un amplio espacio de diseño combinatorio, proceso que actualmente se gestiona mediante plantillas fijas de gran tamaño o heurísticas ajustadas manualmente. Esto genera comportamientos frágiles y un uso computacional innecesario, ya que la misma configuración engorrosa suele aplicarse tanto a consultas de entrada fáciles como difíciles. Formulamos la configuración de agentes como un problema de decisión por consulta e introducimos ARC (Agentic Resource & Configuration learner), que aprende una política jerárquica ligera mediante aprendizaje por refuerzo para adaptar dinámicamente estas configuraciones. En múltiples benchmarks que abarcan razonamiento y respuestas a preguntas con herramientas, la política aprendida supera consistentemente a sólidas líneas base diseñadas manualmente y otras, logrando hasta un 25% más de precisión en la tarea mientras reduce los costes de tokens y tiempo de ejecución. Estos resultados demuestran que aprender configuraciones de agente por consulta es una alternativa poderosa a los diseños de "talla única".
English
Configuring LLM-based agent systems involves choosing workflows, tools, token budgets, and prompts from a large combinatorial design space, and is typically handled today by fixed large templates or hand-tuned heuristics. This leads to brittle behavior and unnecessary compute, since the same cumbersome configuration is often applied to both easy and hard input queries. We formulate agent configuration as a query-wise decision problem and introduce ARC (Agentic Resource & Configuration learner), which learns a light-weight hierarchical policy using reinforcement learning to dynamically tailor these configurations. Across multiple benchmarks spanning reasoning and tool-augmented question answering, the learned policy consistently outperforms strong hand-designed and other baselines, achieving up to 25% higher task accuracy while also reducing token and runtime costs. These results demonstrate that learning per-query agent configurations is a powerful alternative to "one size fits all" designs.
PDF122February 18, 2026