Budget-bewusster Werkzeugeinsatz ermöglicht effektive Skalierung von Agenten

papers.abstract

Die Skalierung von Testzeit-Berechnungen verbessert die Leistung von großen Sprachmodellen (LLMs) bei verschiedenen Aufgaben, was auch auf werkzeuggestützte Agenten ausgeweitet wurde. Bei diesen Agenten beinhaltet die Skalierung nicht nur "Denken" in Tokens, sondern auch "Handeln" durch Werkzeugaufrufe. Die Anzahl der Werkzeugaufrufe begrenzt direkt die Interaktion des Agenten mit der externen Umgebung. Wir stellen jedoch fest, dass das bloße Gewähren eines größeren Werkzeugaufruf-Budgets die Leistung nicht verbessert, da den Agenten das "Budgetbewusstsein" fehlt und sie schnell eine Leistungsgrenze erreichen. Um dieses Problem zu lösen, untersuchen wir, wie solche Agenten unter expliziten Werkzeugaufruf-Budgets effektiv skaliert werden können, mit Fokus auf Web-Such-Agenten. Zunächst führen wir den Budget-Tracker ein, ein leichtgewichtiges Plug-in, das dem Agenten kontinuierliches Budgetbewusstsein vermittelt und so eine einfache aber effektive Skalierung ermöglicht. Darauf aufbauend entwickeln wir BATS (Budget Aware Test-time Scaling), ein erweitertes Framework, das dieses Bewusstsein nutzt, um seine Planungs- und Verifikationsstrategie dynamisch anzupassen und basierend auf den verbleibenden Ressourcen zu entscheiden, ob es einer vielversprechenden Spur "weiter nachgehen" oder zu neuen Pfaden "wechseln" soll. Um die Kosten-Leistungs-Skalierung kontrolliert zu analysieren, formalisieren wir eine einheitliche Kostenmetrik, die Token- und Werkzeugverbrauch gemeinsam berücksichtigt. Wir liefern die erste systematische Studie zu budgetbeschränkten Agenten und zeigen, dass budgetbewusste Methoden günstigere Skalierungskurven erzeugen und die Kosten-Leistungs-Pareto-Grenze verschieben. Unsere Arbeit bietet empirische Einblicke für ein transparenteres und prinzipienbesseres Verständnis der Skalierung von werkzeuggestützten Agenten.

English

Scaling test-time computation improves performance across different tasks on large language models (LLMs), which has also been extended to tool-augmented agents. For these agents, scaling involves not only "thinking" in tokens but also "acting" via tool calls. The number of tool calls directly bounds the agent's interaction with the external environment. However, we find that simply granting agents a larger tool-call budget fails to improve performance, as they lack "budget awareness" and quickly hit a performance ceiling. To address this, we study how to scale such agents effectively under explicit tool-call budgets, focusing on web search agents. We first introduce the Budget Tracker, a lightweight plug-in that provides the agent with continuous budget awareness, enabling simple yet effective scaling. We further develop BATS (Budget Aware Test-time Scaling), an advanced framework that leverages this awareness to dynamically adapt its planning and verification strategy, deciding whether to "dig deeper" on a promising lead or "pivot" to new paths based on remaining resources. To analyze cost-performance scaling in a controlled manner, we formalize a unified cost metric that jointly accounts for token and tool consumption. We provide the first systematic study on budget-constrained agents, showing that budget-aware methods produce more favorable scaling curves and push the cost-performance Pareto frontier. Our work offers empirical insights toward a more transparent and principled understanding of scaling in tool-augmented agents.

Budget-bewusster Werkzeugeinsatz ermöglicht effektive Skalierung von Agenten

Budget-Aware Tool-Use Enables Effective Agent Scaling

papers.abstract

Support