CostBench: Evaluatie van meerfasige kost-optimale planning en aanpassing in dynamische omgevingen voor LLM-gereedschapsgebruikende agenten
CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents
November 4, 2025
Auteurs: Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung
cs.AI
Samenvatting
Huidige evaluaties van Large Language Model (LLM)-agenten leggen voornamelijk de nadruk op taakvoltooiing, waarbij resource-efficiëntie en aanpasbaarheid vaak over het hoofd worden gezien. Dit negeert een cruciale capaciteit: het vermogen van agenten om kostenefficiënte plannen te bedenken en aan te passen in reactie op veranderende omgevingen. Om deze kloof te overbruggen, introduceren we CostBench, een schaalbare, kostengerichte benchmark die is ontworpen om het economisch redeneervermogen en de herplanningcapaciteiten van agenten te evalueren.
Geplaatst in het domein van reisplanning, bestaat CostBench uit taken die oplosbaar zijn via meerdere reeksen van atomische en samengestelde tools met uiteenlopende, aanpasbare kosten. Het ondersteunt ook vier soorten dynamische blokkeringsevenementen, zoals toolstoringen en kostwijzigingen, om real-world onvoorspelbaarheid te simuleren en agenten te dwingen zich in realtime aan te passen.
Evaluatie van toonaangevende open-source en propriëtaire modellen met CostBench onthult een aanzienlijke kloof in kostbewust plannen: agenten slagen er vaak niet in kostoptimale oplossingen te identificeren in statische settings, waarbij zelfs GPT-5 minder dan 75% exacte treffers behaalt op de moeilijkste taken, en de prestaties verder met ongeveer 40% dalen onder dynamische omstandigheden. Door deze zwakke punten te diagnosticeren, legt CostBench de basis voor de ontwikkeling van toekomstige agenten die zowel economisch rationeel als robuust zijn.
English
Current evaluations of Large Language Model (LLM) agents primarily emphasize
task completion, often overlooking resource efficiency and adaptability. This
neglects a crucial capability: agents' ability to devise and adjust
cost-optimal plans in response to changing environments. To bridge this gap, we
introduce CostBench, a scalable, cost-centric benchmark designed to evaluate
agents' economic reasoning and replanning abilities. Situated in the
travel-planning domain, CostBench comprises tasks solvable via multiple
sequences of atomic and composite tools with diverse, customizable costs. It
also supports four types of dynamic blocking events, such as tool failures and
cost changes, to simulate real-world unpredictability and necessitate agents to
adapt in real time. Evaluating leading open-sourced and proprietary models on
CostBench reveals a substantial gap in cost-aware planning: agents frequently
fail to identify cost-optimal solutions in static settings, with even GPT-5
achieving less than 75% exact match rate on the hardest tasks, and performance
further dropping by around 40% under dynamic conditions. By diagnosing these
weaknesses, CostBench lays the groundwork for developing future agents that are
both economically rational and robust.