CostBench: Оценка многопроходного стоимостно-оптимального планирования и адаптации в динамических средах для LLM-агентов, использующих инструменты
CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents
November 4, 2025
Авторы: Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung
cs.AI
Аннотация
Современные подходы к оценке агентов на основе больших языковых моделей (LLM) в основном фокусируются на выполнении задач, часто упуская из виду эффективность использования ресурсов и адаптивность. Это игнорирует ключевую способность: возможность агентов разрабатывать и корректировать экономически оптимальные планы в ответ на изменения окружающей среды. Для устранения этого пробела мы представляем CostBench — масштабируемый бенчмарк с акцентом на стоимость, предназначенный для оценки экономического мышления агентов и их способности к перепланированию. Основанный на области планирования путешествий, CostBench включает задачи, решаемые с помощью множества последовательностей атомарных и составных инструментов с разнообразными настраиваемыми стоимостями. Он также поддерживает четыре типа динамических блокирующих событий, таких как сбои инструментов и изменения стоимости, для моделирования реальной непредсказуемости и необходимости адаптации агентов в реальном времени. Оценка ведущих открытых и проприетарных моделей на CostBench выявляет значительный разрыв в стоимости-ориентированном планировании: агенты часто не могут определить оптимальные по стоимости решения в статических условиях (даже GPT-5 демонстрирует менее 75% точных совпадений на самых сложных задачах), а производительность дополнительно снижается примерно на 40% в динамических условиях. Диагностируя эти слабые места, CostBench закладывает основу для разработки будущих агентов, которые будут одновременно экономически рациональными и устойчивыми.
English
Current evaluations of Large Language Model (LLM) agents primarily emphasize
task completion, often overlooking resource efficiency and adaptability. This
neglects a crucial capability: agents' ability to devise and adjust
cost-optimal plans in response to changing environments. To bridge this gap, we
introduce CostBench, a scalable, cost-centric benchmark designed to evaluate
agents' economic reasoning and replanning abilities. Situated in the
travel-planning domain, CostBench comprises tasks solvable via multiple
sequences of atomic and composite tools with diverse, customizable costs. It
also supports four types of dynamic blocking events, such as tool failures and
cost changes, to simulate real-world unpredictability and necessitate agents to
adapt in real time. Evaluating leading open-sourced and proprietary models on
CostBench reveals a substantial gap in cost-aware planning: agents frequently
fail to identify cost-optimal solutions in static settings, with even GPT-5
achieving less than 75% exact match rate on the hardest tasks, and performance
further dropping by around 40% under dynamic conditions. By diagnosing these
weaknesses, CostBench lays the groundwork for developing future agents that are
both economically rational and robust.