CostBench: Bewertung mehrstufiger kosteneffizienter Planung und Anpassung in dynamischen Umgebungen für LLM-Werkzeugnutzungsagenten

papers.abstract

Aktuelle Bewertungen von Agenten auf Basis großer Sprachmodelle (LLM) konzentrieren sich primär auf die Aufgabenerfüllung und vernachlässigen häufig Ressourceneffizienz und Anpassungsfähigkeit. Dadurch wird eine entscheidende Fähigkeit übersehen: die Fähigkeit der Agenten, kosteneffiziente Pläne zu entwerfen und an sich verändernde Umgebungen anzupassen. Um diese Lücke zu schließen, stellen wir CostBench vor, einen skalierbaren, kostenzentrierten Benchmark, der entwickelt wurde, um das ökonomische Denkvermögen und die Neuplanungsfähigkeiten von Agenten zu bewerten. Angesiedelt im Bereich der Reiseplanung umfasst CostBench Aufgaben, die durch mehrere Abfolgen von atomaren und zusammengesetzten Tools mit unterschiedlichen, anpassbaren Kosten lösbar sind. Es unterstützt zudem vier Arten von dynamischen Blockierereignissen, wie Tool-Ausfälle und Kostenänderungen, um reale Unvorhersehbarkeit zu simulieren und Agenten zu Echtzeitanpassungen zu zwingen. Die Auswertung führender open-source und proprietärer Modelle mit CostBench offenbart eine erhebliche Lücke im kostensensiblen Planen: Agenten scheitern häufig daran, kosteneffiziente Lösungen in statischen Szenarien zu identifizieren, wobei selbst GPT-5 bei den schwierigsten Aufgaben eine Exakt-Trefferquote von unter 75% erreicht. Unter dynamischen Bedingungen sinkt die Leistung weiter um etwa 40%. Durch die Diagnose dieser Schwächen legt CostBench den Grundstein für die Entwicklung zukünftiger Agenten, die sowohl ökonomisch rational als auch robust sind.

English

Current evaluations of Large Language Model (LLM) agents primarily emphasize task completion, often overlooking resource efficiency and adaptability. This neglects a crucial capability: agents' ability to devise and adjust cost-optimal plans in response to changing environments. To bridge this gap, we introduce CostBench, a scalable, cost-centric benchmark designed to evaluate agents' economic reasoning and replanning abilities. Situated in the travel-planning domain, CostBench comprises tasks solvable via multiple sequences of atomic and composite tools with diverse, customizable costs. It also supports four types of dynamic blocking events, such as tool failures and cost changes, to simulate real-world unpredictability and necessitate agents to adapt in real time. Evaluating leading open-sourced and proprietary models on CostBench reveals a substantial gap in cost-aware planning: agents frequently fail to identify cost-optimal solutions in static settings, with even GPT-5 achieving less than 75% exact match rate on the hardest tasks, and performance further dropping by around 40% under dynamic conditions. By diagnosing these weaknesses, CostBench lays the groundwork for developing future agents that are both economically rational and robust.

CostBench: Bewertung mehrstufiger kosteneffizienter Planung und Anpassung in dynamischen Umgebungen für LLM-Werkzeugnutzungsagenten

CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

papers.abstract

Support