CostBench: Evaluación de Planificación y Adaptación de Costo Óptimo en Entornos Dinámicos para Agentes de Uso de Herramientas Basados en LLM

Resumen

Las evaluaciones actuales de agentes de Grandes Modelos de Lenguaje (LLM) se centran principalmente en la finalización de tareas, pasando por alto con frecuencia la eficiencia de recursos y la adaptabilidad. Esto descuida una capacidad crucial: la habilidad de los agentes para idear y ajustar planes óptimos en costos en respuesta a entornos cambiantes. Para cerrar esta brecha, presentamos CostBench, un punto de referencia escalable centrado en costos diseñado para evaluar el razonamiento económico y las capacidades de replanificación de los agentes. Situado en el dominio de la planificación de viajes, CostBench comprende tareas resolubles mediante múltiples secuencias de herramientas atómicas y compuestas con costos diversos y personalizables. También admite cuatro tipos de eventos de bloqueo dinámicos, como fallos de herramientas y cambios de costos, para simular la imprevisibilidad del mundo real y requerir que los agentes se adapten en tiempo real. La evaluación de modelos líderes de código abierto y propietarios en CostBench revela una brecha sustancial en la planificación consciente de costos: los agentes frecuentemente no logran identificar soluciones óptimas en costos en entornos estáticos, con incluso GPT-5 alcanzando menos del 75% de tasa de coincidencia exacta en las tareas más difíciles, y el rendimiento disminuye aún más en aproximadamente un 40% bajo condiciones dinámicas. Al diagnosticar estas debilidades, CostBench sienta las bases para desarrollar futuros agentes que sean tanto económicamente racionales como robustos.

English

Current evaluations of Large Language Model (LLM) agents primarily emphasize task completion, often overlooking resource efficiency and adaptability. This neglects a crucial capability: agents' ability to devise and adjust cost-optimal plans in response to changing environments. To bridge this gap, we introduce CostBench, a scalable, cost-centric benchmark designed to evaluate agents' economic reasoning and replanning abilities. Situated in the travel-planning domain, CostBench comprises tasks solvable via multiple sequences of atomic and composite tools with diverse, customizable costs. It also supports four types of dynamic blocking events, such as tool failures and cost changes, to simulate real-world unpredictability and necessitate agents to adapt in real time. Evaluating leading open-sourced and proprietary models on CostBench reveals a substantial gap in cost-aware planning: agents frequently fail to identify cost-optimal solutions in static settings, with even GPT-5 achieving less than 75% exact match rate on the hardest tasks, and performance further dropping by around 40% under dynamic conditions. By diagnosing these weaknesses, CostBench lays the groundwork for developing future agents that are both economically rational and robust.

CostBench: Evaluación de Planificación y Adaptación de Costo Óptimo en Entornos Dinámicos para Agentes de Uso de Herramientas Basados en LLM

CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

Resumen

Support