ChatPaper.aiChatPaper

CostBench: 動的環境におけるLLMツール利用エージェントのマルチターン費用最適計画と適応の評価

CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

November 4, 2025
著者: Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung
cs.AI

要旨

現在の大規模言語モデル(LLM)エージェントの評価は、主にタスク完了に重点が置かれており、リソース効率や適応性が見過ごされがちです。これにより、環境の変化に応じてコスト最適な計画を立案・調整するという重要な能力が軽視されています。この課題を解決するため、我々はCostBenchを提案します。これは、エージェントの経済的推論と計画再調整能力を評価するための、スケーラブルでコスト中心のベンチマークです。旅行計画領域を題材としたCostBenchは、多様でカスタマイズ可能なコストを持つ原子ツールと複合ツールの組み合わせにより解決可能なタスク群で構成されています。さらに、ツール障害やコスト変動など4種類の動的阻害事象をサポートし、現実世界の不確実性を模擬し、エージェントにリアルタイム適応を要求します。主要なオープンソースモデルおよびプロプライエタリモデルをCostBenchで評価した結果、コストを考慮した計画立案において重大な課題が明らかになりました:エージェントは静的な環境下でもコスト最適解を見出せないことが頻発し、最も困難なタスクではGPT-5ですら75%未満の完全一致率に留まり、動的環境下では性能が約40%も低下しました。これらの弱点を診断するCostBenchは、経済的に合理的かつ頑健な将来のエージェント開発の基盤を築くものです。
English
Current evaluations of Large Language Model (LLM) agents primarily emphasize task completion, often overlooking resource efficiency and adaptability. This neglects a crucial capability: agents' ability to devise and adjust cost-optimal plans in response to changing environments. To bridge this gap, we introduce CostBench, a scalable, cost-centric benchmark designed to evaluate agents' economic reasoning and replanning abilities. Situated in the travel-planning domain, CostBench comprises tasks solvable via multiple sequences of atomic and composite tools with diverse, customizable costs. It also supports four types of dynamic blocking events, such as tool failures and cost changes, to simulate real-world unpredictability and necessitate agents to adapt in real time. Evaluating leading open-sourced and proprietary models on CostBench reveals a substantial gap in cost-aware planning: agents frequently fail to identify cost-optimal solutions in static settings, with even GPT-5 achieving less than 75% exact match rate on the hardest tasks, and performance further dropping by around 40% under dynamic conditions. By diagnosing these weaknesses, CostBench lays the groundwork for developing future agents that are both economically rational and robust.
PDF202December 1, 2025