CostBench: Valutazione della Pianificazione e dell'Adattamento Multi-Turn Ottimali in Termini di Costo per Agenti LLM con Utilizzo di Strumenti in Ambienti Dinamici
CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents
November 4, 2025
Autori: Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung
cs.AI
Abstract
Le valutazioni attuali degli agenti basati su Large Language Model (LLM) si concentrano principalmente sul completamento dei compiti, trascurando spesso l'efficienza delle risorse e l'adattabilità. Ciò ignora una capacità cruciale: l'abilità degli agenti di ideare e modificare piani ottimali in termini di costo in risposta a ambienti mutevoli. Per colmare questa lacuna, introduciamo CostBench, un benchmark scalabile e centrato sui costi progettato per valutare il ragionamento economico e le capacità di ripianificazione degli agenti. Collocato nel dominio della pianificazione di viaggi, CostBench comprende compiti risolvibili attraverso multiple sequenze di strumenti atomici e compositi con costi diversificati e personalizzabili. Supporta inoltre quattro tipi di eventi di blocco dinamici, come guasti degli strumenti e variazioni dei costi, per simulare l'imprevedibilità del mondo reale e necessitare che gli agenti si adattino in tempo reale. La valutazione dei principali modelli open-source e proprietari su CostBench rivela un divario sostanziale nella pianificazione consapevole dei costi: gli agenti spesso non identificano soluzioni ottimali in contesti statici, con persino GPT-5 che raggiunge meno del 75% di tasso di corrispondenza esatta nei compiti più difficili, e le prestazioni si riducono ulteriormente di circa il 40% in condizioni dinamiche. Diagnosticando queste debolezze, CostBench getta le basi per lo sviluppo di futuri agenti che siano sia economicamente razionali che robusti.
English
Current evaluations of Large Language Model (LLM) agents primarily emphasize
task completion, often overlooking resource efficiency and adaptability. This
neglects a crucial capability: agents' ability to devise and adjust
cost-optimal plans in response to changing environments. To bridge this gap, we
introduce CostBench, a scalable, cost-centric benchmark designed to evaluate
agents' economic reasoning and replanning abilities. Situated in the
travel-planning domain, CostBench comprises tasks solvable via multiple
sequences of atomic and composite tools with diverse, customizable costs. It
also supports four types of dynamic blocking events, such as tool failures and
cost changes, to simulate real-world unpredictability and necessitate agents to
adapt in real time. Evaluating leading open-sourced and proprietary models on
CostBench reveals a substantial gap in cost-aware planning: agents frequently
fail to identify cost-optimal solutions in static settings, with even GPT-5
achieving less than 75% exact match rate on the hardest tasks, and performance
further dropping by around 40% under dynamic conditions. By diagnosing these
weaknesses, CostBench lays the groundwork for developing future agents that are
both economically rational and robust.