Эффективное масштабирование агентов за счет бюджетно-ориентированного использования инструментов.

Аннотация

Масштабирование вычислительных ресурсов на этапе тестирования повышает производительность больших языковых моделей (LLM) при решении различных задач, что также было распространено на агентов, дополненных инструментами. Для таких агентов масштабирование включает не только «мышление» в токенах, но и «действие» посредством вызовов инструментов. Количество вызовов инструментов напрямую ограничивает взаимодействие агента с внешней средой. Однако мы обнаруживаем, что простое предоставление агентам большего бюджета на вызовы инструментов не улучшает производительность, поскольку они не обладают «осознанием бюджета» и быстро достигают потолка эффективности. Чтобы решить эту проблему, мы исследуем, как эффективно масштабировать таких агентов при явно заданных бюджетах на вызовы инструментов, фокусируясь на агентах веб-поиска. Сначала мы представляем Budget Tracker — легковесный плагин, который обеспечивает агенту постоянное осознание бюджета, позволяя простое, но эффективное масштабирование. Далее мы разрабатываем BATS (Budget Aware Test-time Scaling) — продвинутую систему, которая использует это осознание для динамической адаптации стратегии планирования и проверки, решая, «углубиться ли» в перспективное направление или «переключиться» на новые пути в зависимости от оставшихся ресурсов. Для анализа масштабирования «затраты-производительность» контролируемым образом мы формализуем унифицированную метрику затрат, совместно учитывающую потребление токенов и инструментов. Мы представляем первое систематическое исследование агентов с ограниченным бюджетом, показывающее, что методы с осознанием бюджета создают более благоприятные кривые масштабирования и расширяют границу Парето «затраты-эффективность». Наша работа предоставляет эмпирические insights для более прозрачного и принципиального понимания масштабирования инструментально-расширенных агентов.

English

Scaling test-time computation improves performance across different tasks on large language models (LLMs), which has also been extended to tool-augmented agents. For these agents, scaling involves not only "thinking" in tokens but also "acting" via tool calls. The number of tool calls directly bounds the agent's interaction with the external environment. However, we find that simply granting agents a larger tool-call budget fails to improve performance, as they lack "budget awareness" and quickly hit a performance ceiling. To address this, we study how to scale such agents effectively under explicit tool-call budgets, focusing on web search agents. We first introduce the Budget Tracker, a lightweight plug-in that provides the agent with continuous budget awareness, enabling simple yet effective scaling. We further develop BATS (Budget Aware Test-time Scaling), an advanced framework that leverages this awareness to dynamically adapt its planning and verification strategy, deciding whether to "dig deeper" on a promising lead or "pivot" to new paths based on remaining resources. To analyze cost-performance scaling in a controlled manner, we formalize a unified cost metric that jointly accounts for token and tool consumption. We provide the first systematic study on budget-constrained agents, showing that budget-aware methods produce more favorable scaling curves and push the cost-performance Pareto frontier. Our work offers empirical insights toward a more transparent and principled understanding of scaling in tool-augmented agents.

Эффективное масштабирование агентов за счет бюджетно-ориентированного использования инструментов.

Budget-Aware Tool-Use Enables Effective Agent Scaling

Аннотация

Support