Budgetbewust gereedschapsgebruik maakt effectieve schaalvergroting van agents mogelijk.

Samenvatting

Het opschalen van rekenkracht tijdens het testen verbetert de prestaties van grote taalmodellen (LLM's) voor diverse taken, een principe dat eveneens is uitgebreid naar met tools versterkte agents. Voor deze agents houdt opschaling niet alleen "denken" in tokens in, maar ook "handelen" via toolaanroepen. Het aantal toolaanroepen bepaalt direct de interactie van de agent met de externe omgeving. Wij constateren echter dat het simpelweg verlenen van een groter toolaanroepplafond aan agents de prestaties niet verbetert, omdat zij geen "budgetbewustzijn" hebben en snel een plafond in prestaties bereiken. Om dit aan te pakken, bestuderen wij hoe dergelijke agents effectief kunnen worden opgeschaald onder expliciete toolaanroepplafonds, met focus op webzoekagents. Wij introduceren eerst de Budget Tracker, een lichtgewicht plug-in die de agent continu budgetbewustzijn biedt, wat eenvoudige doch effectieve opschaling mogelijk maakt. Vervolgens ontwikkelen wij BATS (Budget Aware Test-time Scaling), een geavanceerd framework dat dit bewustzijn benut om dynamisch zijn plannings- en verificatiestrategie aan te passen, waarbij het beslist of het "dieper moet graven" in een veelbelovend spoor of moet "pivotten" naar nieuwe paden op basis van resterende middelen. Om kost-prestatieverhouding gecontroleerd te analyseren, formaliseren wij een uniforme kostmaatstaf die gezamenlijk rekening houdt met token- en toolverbruik. Wij presenteren de eerste systematische studie naar budgetbeperkte agents, waarin wij aantonen dat budgetbewuste methoden gunstigere schaalcurves produceren en de kost-prestatie-Pareto-grens verleggen. Ons werk biedt empirische inzichten voor een transparanter en meer principieel begrip van opschaling bij met tools versterkte agents.

English

Scaling test-time computation improves performance across different tasks on large language models (LLMs), which has also been extended to tool-augmented agents. For these agents, scaling involves not only "thinking" in tokens but also "acting" via tool calls. The number of tool calls directly bounds the agent's interaction with the external environment. However, we find that simply granting agents a larger tool-call budget fails to improve performance, as they lack "budget awareness" and quickly hit a performance ceiling. To address this, we study how to scale such agents effectively under explicit tool-call budgets, focusing on web search agents. We first introduce the Budget Tracker, a lightweight plug-in that provides the agent with continuous budget awareness, enabling simple yet effective scaling. We further develop BATS (Budget Aware Test-time Scaling), an advanced framework that leverages this awareness to dynamically adapt its planning and verification strategy, deciding whether to "dig deeper" on a promising lead or "pivot" to new paths based on remaining resources. To analyze cost-performance scaling in a controlled manner, we formalize a unified cost metric that jointly accounts for token and tool consumption. We provide the first systematic study on budget-constrained agents, showing that budget-aware methods produce more favorable scaling curves and push the cost-performance Pareto frontier. Our work offers empirical insights toward a more transparent and principled understanding of scaling in tool-augmented agents.

Budgetbewust gereedschapsgebruik maakt effectieve schaalvergroting van agents mogelijk.

Budget-Aware Tool-Use Enables Effective Agent Scaling

Samenvatting

Support