予算を考慮したツール利用による効率的なエージェント規模拡大
Budget-Aware Tool-Use Enables Effective Agent Scaling
November 21, 2025
著者: Tengxiao Liu, Zifeng Wang, Jin Miao, I-Hung Hsu, Jun Yan, Jiefeng Chen, Rujun Han, Fangyuan Xu, Yanfei Chen, Ke Jiang, Samira Daruki, Yi Liang, William Yang Wang, Tomas Pfister, Chen-Yu Lee
cs.AI
要旨
テスト時の計算量のスケーリングは大規模言語モデル(LLM)における様々なタスクで性能向上をもたらすことが知られており、この考え方はツール拡張エージェントにも拡張されている。これらのエージェントにとって、スケーリングはトークンによる「思考」だけでなく、ツール呼び出しによる「行動」も含む。ツール呼び出し回数は、エージェントの外部環境との相互作用を直接規定する。しかしながら、単にエージェントに大きなツール呼び出し予算を付与しても、彼らが「予算認識」を欠いているため性能向上には至らず、すぐに性能の天井に達することがわかった。この問題に対処するため、我々は明示的なツール呼び出し予算の下で、特にWeb検索エージェントに焦点を当て、如何に効果的にエージェントをスケーリングするかを研究する。まず、軽量プラグインである「予算トラッカー」を導入する。これはエージェントに継続的な予算認識を提供し、シンプルかつ効果的なスケーリングを可能にする。さらに、この認識を活用して動的に計画と検証戦略を適応させ、有望な手がかりを「深く掘り下げる」か、残りリソースに基づいて新しい経路に「方向転換する」かを決定する高度なフレームワーク「BATS(予算認識型テスト時スケーリング)」を開発する。コストと性能のスケーリングを制御された形で分析するため、トークン消費とツール消費を統合的に考慮した統一コスト指標を形式化する。予算制約付きエージェントに関する最初の体系的研究を提供し、予算認識手法がより好ましいスケーリング曲線を生成し、コストと性能のパレートフロンティアを押し上げることを示す。本研究は、ツール拡張エージェントのスケーリングに関するより透明性が高く原則的な理解に向けた実証的知見を提供する。
English
Scaling test-time computation improves performance across different tasks on large language models (LLMs), which has also been extended to tool-augmented agents. For these agents, scaling involves not only "thinking" in tokens but also "acting" via tool calls. The number of tool calls directly bounds the agent's interaction with the external environment. However, we find that simply granting agents a larger tool-call budget fails to improve performance, as they lack "budget awareness" and quickly hit a performance ceiling. To address this, we study how to scale such agents effectively under explicit tool-call budgets, focusing on web search agents. We first introduce the Budget Tracker, a lightweight plug-in that provides the agent with continuous budget awareness, enabling simple yet effective scaling. We further develop BATS (Budget Aware Test-time Scaling), an advanced framework that leverages this awareness to dynamically adapt its planning and verification strategy, deciding whether to "dig deeper" on a promising lead or "pivot" to new paths based on remaining resources. To analyze cost-performance scaling in a controlled manner, we formalize a unified cost metric that jointly accounts for token and tool consumption. We provide the first systematic study on budget-constrained agents, showing that budget-aware methods produce more favorable scaling curves and push the cost-performance Pareto frontier. Our work offers empirical insights toward a more transparent and principled understanding of scaling in tool-augmented agents.