ChatPaper.aiChatPaper

Aprendendo a Configurar Sistemas de IA Agentes

Learning to Configure Agentic AI Systems

February 12, 2026
Autores: Aditya Taparia, Som Sagar, Ransalu Senanayake
cs.AI

Resumo

A configuração de sistemas de agentes baseados em LLM envolve a seleção de fluxos de trabalho, ferramentas, orçamentos de tokens e instruções a partir de um amplo espaço de combinações, sendo geralmente tratada atualmente por meio de modelos fixos extensos ou heurísticas ajustadas manualmente. Isso resulta em comportamentos frágeis e consumo computacional desnecessário, uma vez que a mesma configuração complexa é frequentemente aplicada tanto a consultas de entrada fáceis quanto difíceis. Nós formulamos a configuração de agentes como um problema de decisão por consulta e introduzimos o ARC (Agente de Recursos e Configuração por Aprendizado), que aprende uma política hierárquica leve usando aprendizado por reforço para adaptar dinamicamente essas configurações. Em diversos benchmarks abrangendo raciocínio e questionamento aumentado por ferramentas, a política aprendida supera consistentemente baselines robustos projetados manualmente e outros, alcançando até 25% maior precisão na tarefa enquanto também reduz custos de tokens e tempo de execução. Esses resultados demonstram que aprender configurações de agente por consulta é uma alternativa poderosa aos designs de "tamanho único".
English
Configuring LLM-based agent systems involves choosing workflows, tools, token budgets, and prompts from a large combinatorial design space, and is typically handled today by fixed large templates or hand-tuned heuristics. This leads to brittle behavior and unnecessary compute, since the same cumbersome configuration is often applied to both easy and hard input queries. We formulate agent configuration as a query-wise decision problem and introduce ARC (Agentic Resource & Configuration learner), which learns a light-weight hierarchical policy using reinforcement learning to dynamically tailor these configurations. Across multiple benchmarks spanning reasoning and tool-augmented question answering, the learned policy consistently outperforms strong hand-designed and other baselines, achieving up to 25% higher task accuracy while also reducing token and runtime costs. These results demonstrate that learning per-query agent configurations is a powerful alternative to "one size fits all" designs.
PDF122February 18, 2026