CostBench: Bewertung mehrstufiger kosteneffizienter Planung und Anpassung in dynamischen Umgebungen für LLM-Werkzeugnutzungsagenten
CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents
November 4, 2025
papers.authors: Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung
cs.AI
papers.abstract
Aktuelle Bewertungen von Agenten auf Basis großer Sprachmodelle (LLM) konzentrieren sich primär auf die Aufgabenerfüllung und vernachlässigen häufig Ressourceneffizienz und Anpassungsfähigkeit. Dadurch wird eine entscheidende Fähigkeit übersehen: die Fähigkeit der Agenten, kosteneffiziente Pläne zu entwerfen und an sich verändernde Umgebungen anzupassen. Um diese Lücke zu schließen, stellen wir CostBench vor, einen skalierbaren, kostenzentrierten Benchmark, der entwickelt wurde, um das ökonomische Denkvermögen und die Neuplanungsfähigkeiten von Agenten zu bewerten.
Angesiedelt im Bereich der Reiseplanung umfasst CostBench Aufgaben, die durch mehrere Abfolgen von atomaren und zusammengesetzten Tools mit unterschiedlichen, anpassbaren Kosten lösbar sind. Es unterstützt zudem vier Arten von dynamischen Blockierereignissen, wie Tool-Ausfälle und Kostenänderungen, um reale Unvorhersehbarkeit zu simulieren und Agenten zu Echtzeitanpassungen zu zwingen.
Die Auswertung führender open-source und proprietärer Modelle mit CostBench offenbart eine erhebliche Lücke im kostensensiblen Planen: Agenten scheitern häufig daran, kosteneffiziente Lösungen in statischen Szenarien zu identifizieren, wobei selbst GPT-5 bei den schwierigsten Aufgaben eine Exakt-Trefferquote von unter 75% erreicht. Unter dynamischen Bedingungen sinkt die Leistung weiter um etwa 40%. Durch die Diagnose dieser Schwächen legt CostBench den Grundstein für die Entwicklung zukünftiger Agenten, die sowohl ökonomisch rational als auch robust sind.
English
Current evaluations of Large Language Model (LLM) agents primarily emphasize
task completion, often overlooking resource efficiency and adaptability. This
neglects a crucial capability: agents' ability to devise and adjust
cost-optimal plans in response to changing environments. To bridge this gap, we
introduce CostBench, a scalable, cost-centric benchmark designed to evaluate
agents' economic reasoning and replanning abilities. Situated in the
travel-planning domain, CostBench comprises tasks solvable via multiple
sequences of atomic and composite tools with diverse, customizable costs. It
also supports four types of dynamic blocking events, such as tool failures and
cost changes, to simulate real-world unpredictability and necessitate agents to
adapt in real time. Evaluating leading open-sourced and proprietary models on
CostBench reveals a substantial gap in cost-aware planning: agents frequently
fail to identify cost-optimal solutions in static settings, with even GPT-5
achieving less than 75% exact match rate on the hardest tasks, and performance
further dropping by around 40% under dynamic conditions. By diagnosing these
weaknesses, CostBench lays the groundwork for developing future agents that are
both economically rational and robust.