CostBench : Évaluation de la planification et de l'adaptation à coût optimal en tours multiples dans des environnements dynamiques pour les agents LLM utilisant des outils

papers.abstract

Les évaluations actuelles des agents de modèles de langage de grande taille (LLM) se concentrent principalement sur l'accomplissement des tâches, négligeant souvent l'efficacité des ressources et l'adaptabilité. Cette approche ignore une capacité cruciale : l'aptitude des agents à concevoir et ajuster des plans optimaux en termes de coût face à des environnements changeants. Pour combler cette lacune, nous présentons CostBench, un benchmark évolutif et centré sur les coûts, conçu pour évaluer le raisonnement économique et les capacités de replanification des agents. Situé dans le domaine de la planification de voyages, CostBench comprend des tâches résolubles via de multiples séquences d'outils atomiques et composites aux coûts diversifiés et personnalisables. Il prend également en charge quatre types d'événements bloquants dynamiques, tels que des pannes d'outils et des modifications de coûts, pour simuler l'imprévisibilité du monde réel et contraindre les agents à s'adapter en temps réel. L'évaluation des modèles open-source et propriétaires leaders sur CostBench révèle un écart substantiel dans la planification consciente des coûts : les agents échouent fréquemment à identifier les solutions optimales en contexte statique, GPT-5 atteignant même moins de 75% de taux de correspondance exacte sur les tâches les plus difficiles, et les performances chutant d'environ 40% supplémentaires dans des conditions dynamiques. En diagnostiquant ces faiblesses, CostBench jette les bases pour développer des futurs agents à la fois économiquement rationnels et robustes.

English

Current evaluations of Large Language Model (LLM) agents primarily emphasize task completion, often overlooking resource efficiency and adaptability. This neglects a crucial capability: agents' ability to devise and adjust cost-optimal plans in response to changing environments. To bridge this gap, we introduce CostBench, a scalable, cost-centric benchmark designed to evaluate agents' economic reasoning and replanning abilities. Situated in the travel-planning domain, CostBench comprises tasks solvable via multiple sequences of atomic and composite tools with diverse, customizable costs. It also supports four types of dynamic blocking events, such as tool failures and cost changes, to simulate real-world unpredictability and necessitate agents to adapt in real time. Evaluating leading open-sourced and proprietary models on CostBench reveals a substantial gap in cost-aware planning: agents frequently fail to identify cost-optimal solutions in static settings, with even GPT-5 achieving less than 75% exact match rate on the hardest tasks, and performance further dropping by around 40% under dynamic conditions. By diagnosing these weaknesses, CostBench lays the groundwork for developing future agents that are both economically rational and robust.

CostBench : Évaluation de la planification et de l'adaptation à coût optimal en tours multiples dans des environnements dynamiques pour les agents LLM utilisant des outils

CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

papers.abstract

Support