El Uso de Herramientas Consciente del Presupuesto Permite una Escalabilidad Eficaz de Agentes

Resumen

El escalado del cómputo en tiempo de prueba mejora el rendimiento en diversas tareas de los modelos de lenguaje grandes (LLMs), una ventaja que se ha extendido a los agentes aumentados con herramientas. Para estos agentes, el escalado implica no solo "pensar" en tokens, sino también "actuar" mediante llamadas a herramientas. El número de llamadas a herramientas delimita directamente la interacción del agente con el entorno externo. Sin embargo, encontramos que simplemente otorgar a los agentes un presupuesto mayor de llamadas a herramientas no mejora el rendimiento, ya que carecen de "conciencia del presupuesto" y rápidamente alcanzan un límite de desempeño. Para abordar esto, estudiamos cómo escalar dichos agentes de manera efectiva bajo presupuestos explícitos de llamadas a herramientas, centrándonos en agentes de búsqueda web. Primero presentamos el Rastreador de Presupuesto, un complemento ligero que proporciona al agente una conciencia continua del presupuesto, permitiendo un escalado simple pero efectivo. Desarrollamos además BATS (Escalado en Tiempo de Prueba con Conciencia del Presupuesto), un marco avanzado que aprovecha esta conciencia para adaptar dinámicamente su estrategia de planificación y verificación, decidiendo si "profundizar" en una pista prometedora o "cambiar" a nuevas rutas en función de los recursos restantes. Para analizar el escalado costo-rendimiento de manera controlada, formalizamos una métrica de costo unificada que considera conjuntamente el consumo de tokens y herramientas. Realizamos el primer estudio sistemático sobre agentes con restricciones presupuestarias, demostrando que los métodos con conciencia del presupuesto producen curvas de escalado más favorables y desplazan la frontera de Pareto de costo-rendimiento. Nuestro trabajo ofrece perspectivas empíricas hacia una comprensión más transparente y fundamentada del escalado en agentes aumentados con herramientas.

English

Scaling test-time computation improves performance across different tasks on large language models (LLMs), which has also been extended to tool-augmented agents. For these agents, scaling involves not only "thinking" in tokens but also "acting" via tool calls. The number of tool calls directly bounds the agent's interaction with the external environment. However, we find that simply granting agents a larger tool-call budget fails to improve performance, as they lack "budget awareness" and quickly hit a performance ceiling. To address this, we study how to scale such agents effectively under explicit tool-call budgets, focusing on web search agents. We first introduce the Budget Tracker, a lightweight plug-in that provides the agent with continuous budget awareness, enabling simple yet effective scaling. We further develop BATS (Budget Aware Test-time Scaling), an advanced framework that leverages this awareness to dynamically adapt its planning and verification strategy, deciding whether to "dig deeper" on a promising lead or "pivot" to new paths based on remaining resources. To analyze cost-performance scaling in a controlled manner, we formalize a unified cost metric that jointly accounts for token and tool consumption. We provide the first systematic study on budget-constrained agents, showing that budget-aware methods produce more favorable scaling curves and push the cost-performance Pareto frontier. Our work offers empirical insights toward a more transparent and principled understanding of scaling in tool-augmented agents.

El Uso de Herramientas Consciente del Presupuesto Permite una Escalabilidad Eficaz de Agentes

Budget-Aware Tool-Use Enables Effective Agent Scaling

Resumen

Support