CostBench: Evaluación de Planificación y Adaptación de Costo Óptimo en Entornos Dinámicos para Agentes de Uso de Herramientas Basados en LLM
CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents
November 4, 2025
Autores: Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung
cs.AI
Resumen
Las evaluaciones actuales de agentes de Grandes Modelos de Lenguaje (LLM) se centran principalmente en la finalización de tareas, pasando por alto con frecuencia la eficiencia de recursos y la adaptabilidad. Esto descuida una capacidad crucial: la habilidad de los agentes para idear y ajustar planes óptimos en costos en respuesta a entornos cambiantes. Para cerrar esta brecha, presentamos CostBench, un punto de referencia escalable centrado en costos diseñado para evaluar el razonamiento económico y las capacidades de replanificación de los agentes. Situado en el dominio de la planificación de viajes, CostBench comprende tareas resolubles mediante múltiples secuencias de herramientas atómicas y compuestas con costos diversos y personalizables. También admite cuatro tipos de eventos de bloqueo dinámicos, como fallos de herramientas y cambios de costos, para simular la imprevisibilidad del mundo real y requerir que los agentes se adapten en tiempo real. La evaluación de modelos líderes de código abierto y propietarios en CostBench revela una brecha sustancial en la planificación consciente de costos: los agentes frecuentemente no logran identificar soluciones óptimas en costos en entornos estáticos, con incluso GPT-5 alcanzando menos del 75% de tasa de coincidencia exacta en las tareas más difíciles, y el rendimiento disminuye aún más en aproximadamente un 40% bajo condiciones dinámicas. Al diagnosticar estas debilidades, CostBench sienta las bases para desarrollar futuros agentes que sean tanto económicamente racionales como robustos.
English
Current evaluations of Large Language Model (LLM) agents primarily emphasize
task completion, often overlooking resource efficiency and adaptability. This
neglects a crucial capability: agents' ability to devise and adjust
cost-optimal plans in response to changing environments. To bridge this gap, we
introduce CostBench, a scalable, cost-centric benchmark designed to evaluate
agents' economic reasoning and replanning abilities. Situated in the
travel-planning domain, CostBench comprises tasks solvable via multiple
sequences of atomic and composite tools with diverse, customizable costs. It
also supports four types of dynamic blocking events, such as tool failures and
cost changes, to simulate real-world unpredictability and necessitate agents to
adapt in real time. Evaluating leading open-sourced and proprietary models on
CostBench reveals a substantial gap in cost-aware planning: agents frequently
fail to identify cost-optimal solutions in static settings, with even GPT-5
achieving less than 75% exact match rate on the hardest tasks, and performance
further dropping by around 40% under dynamic conditions. By diagnosing these
weaknesses, CostBench lays the groundwork for developing future agents that are
both economically rational and robust.