L'utilisation d'outils avec conscience budgétaire permet une mise à l'échelle efficace des agents

papers.abstract

L'augmentation des calculs lors des tests améliore les performances des grands modèles de langage (LLM) sur diverses tâches, une approche étendue aux agents augmentés par des outils. Pour ces agents, la montée en puissance implique non seulement de « réfléchir » en tokens mais aussi d'« agir » via des appels d'outils. Le nombre d'appels d'outils limite directement l'interaction de l'agent avec son environnement externe. Cependant, nous constatons qu'accorder simplement aux agents un budget d'appels d'outils plus important n'améliore pas leurs performances, car ils manquent de « conscience du budget » et atteignent rapidement un plafond. Pour résoudre ce problème, nous étudions comment mettre efficacement à l'échelle ces agents sous des budgets d'appels d'outils explicites, en nous concentrant sur les agents de recherche web. Nous introduisons d'abord le Budget Tracker, un module d'extension léger qui fournit à l'agent une conscience continue du budget, permettant une montée en puissance simple mais efficace. Nous développons ensuite BATS (Budget Aware Test-time Scaling), un cadre avancé qui exploite cette conscience pour adapter dynamiquement sa stratégie de planification et de vérification, en décidant s'il faut « approfondir » une piste prometteuse ou « pivoter » vers de nouvelles voies en fonction des ressources restantes. Pour analyser de manière contrôlée la relation coût-performance, nous formalisons une métrique de coût unifiée qui prend conjointement en compte la consommation de tokens et d'outils. Nous présentons la première étude systématique sur les agents sous contrainte budgétaire, montrant que les méthodes conscientes du budget produisent des courbes d'échelle plus favorables et repoussent la frontière de Pareto coût-performance. Notre travail offre des insights empiriques pour une compréhension plus transparente et principielle de la montée en puissance des agents augmentés par des outils.

English

Scaling test-time computation improves performance across different tasks on large language models (LLMs), which has also been extended to tool-augmented agents. For these agents, scaling involves not only "thinking" in tokens but also "acting" via tool calls. The number of tool calls directly bounds the agent's interaction with the external environment. However, we find that simply granting agents a larger tool-call budget fails to improve performance, as they lack "budget awareness" and quickly hit a performance ceiling. To address this, we study how to scale such agents effectively under explicit tool-call budgets, focusing on web search agents. We first introduce the Budget Tracker, a lightweight plug-in that provides the agent with continuous budget awareness, enabling simple yet effective scaling. We further develop BATS (Budget Aware Test-time Scaling), an advanced framework that leverages this awareness to dynamically adapt its planning and verification strategy, deciding whether to "dig deeper" on a promising lead or "pivot" to new paths based on remaining resources. To analyze cost-performance scaling in a controlled manner, we formalize a unified cost metric that jointly accounts for token and tool consumption. We provide the first systematic study on budget-constrained agents, showing that budget-aware methods produce more favorable scaling curves and push the cost-performance Pareto frontier. Our work offers empirical insights toward a more transparent and principled understanding of scaling in tool-augmented agents.

L'utilisation d'outils avec conscience budgétaire permet une mise à l'échelle efficace des agents

Budget-Aware Tool-Use Enables Effective Agent Scaling

papers.abstract

Support