O Uso de Ferramentas com Consciência Orçamentária Permite uma Escalabilidade Eficaz de Agentes

Resumo

A escalada da computação em tempo de teste melhora o desempenho em diversas tarefas em modelos de linguagem grandes (LLMs), o que também foi estendido a agentes aumentados por ferramentas. Para esses agentes, a escalada envolve não apenas "pensar" em tokens, mas também "agir" por meio de chamadas de ferramentas. O número de chamadas de ferramentas limita diretamente a interação do agente com o ambiente externo. No entanto, descobrimos que simplesmente conceder aos agentes um orçamento maior de chamadas de ferramentas não melhora o desempenho, pois eles carecem de "consciência orçamentária" e rapidamente atingem um platô de performance. Para resolver isso, estudamos como escalar tais agentes de forma eficaz sob orçamentos explícitos de chamadas de ferramentas, focando em agentes de pesquisa na web. Primeiro, introduzimos o Rastreador de Orçamento, um *plugin* leve que fornece ao agente uma consciência orçamentária contínua, permitindo uma escalada simples mas eficaz. Desenvolvemos ainda o BATS (*Budget Aware Test-time Scaling*), uma estrutura avançada que aproveita essa consciência para adaptar dinamicamente sua estratégia de planejamento e verificação, decidindo se deve "aprofundar-se" em uma pista promissora ou "mudar de rumo" para novos caminhos com base nos recursos restantes. Para analisar a escalada custo-desempenho de maneira controlada, formalizamos uma métrica de custo unificada que considera conjuntamente o consumo de tokens e de ferramentas. Fornecemos o primeiro estudo sistemático sobre agentes com restrição orçamentária, mostrando que métodos com consciência orçamentária produzem curvas de escalada mais favoráveis e empurram a fronteira de Pareto de custo-desempenho. Nosso trabalho oferece *insights* empíricos para uma compreensão mais transparente e fundamentada da escalada em agentes aumentados por ferramentas.

English

Scaling test-time computation improves performance across different tasks on large language models (LLMs), which has also been extended to tool-augmented agents. For these agents, scaling involves not only "thinking" in tokens but also "acting" via tool calls. The number of tool calls directly bounds the agent's interaction with the external environment. However, we find that simply granting agents a larger tool-call budget fails to improve performance, as they lack "budget awareness" and quickly hit a performance ceiling. To address this, we study how to scale such agents effectively under explicit tool-call budgets, focusing on web search agents. We first introduce the Budget Tracker, a lightweight plug-in that provides the agent with continuous budget awareness, enabling simple yet effective scaling. We further develop BATS (Budget Aware Test-time Scaling), an advanced framework that leverages this awareness to dynamically adapt its planning and verification strategy, deciding whether to "dig deeper" on a promising lead or "pivot" to new paths based on remaining resources. To analyze cost-performance scaling in a controlled manner, we formalize a unified cost metric that jointly accounts for token and tool consumption. We provide the first systematic study on budget-constrained agents, showing that budget-aware methods produce more favorable scaling curves and push the cost-performance Pareto frontier. Our work offers empirical insights toward a more transparent and principled understanding of scaling in tool-augmented agents.

O Uso de Ferramentas com Consciência Orçamentária Permite uma Escalabilidade Eficaz de Agentes

Budget-Aware Tool-Use Enables Effective Agent Scaling

Resumo

Support