CostBench: Avaliação de Planeamento e Adaptação de Custo Ótimo em Múltiplas Interações para Agentes de Uso de Ferramentas baseados em LLM em Ambientes Dinâmicos

Resumo

As avaliações atuais de agentes de Large Language Model (LLM) enfatizam principalmente a conclusão de tarefas, frequentemente negligenciando a eficiência de recursos e a adaptabilidade. Esta negligência ignora uma capacidade crucial: a habilidade dos agentes de conceber e ajustar planos de custo ótimo em resposta a ambientes em mudança. Para preencher esta lacuna, introduzimos o CostBench, um *benchmark* escalável e centrado em custos, projetado para avaliar o raciocínio econômico e as capacidades de replanejamento dos agentes. Situado no domínio do planejamento de viagens, o CostBench compreende tarefas solucionáveis por meio de múltiplas sequências de ferramentas atômicas e compostas com custos diversos e personalizáveis. Ele também suporta quatro tipos de eventos dinâmicos de bloqueio, como falhas de ferramentas e mudanças de custos, para simular a imprevisibilidade do mundo real e exigir que os agentes se adaptem em tempo real. A avaliação dos principais modelos proprietários e de código aberto no CostBench revela uma lacuna substancial no planejamento com consciência de custo: os agentes frequentemente falham em identificar soluções de custo ótimo em ambientes estáticos, com até mesmo o GPT-5 atingindo menos de 75% de taxa de correspondência exata nas tarefas mais difíceis, e o desempenho caindo ainda mais cerca de 40% sob condições dinâmicas. Ao diagnosticar essas fraquezas, o CostBench estabelece as bases para o desenvolvimento de futuros agentes que sejam economicamente racionais e robustos.

English

Current evaluations of Large Language Model (LLM) agents primarily emphasize task completion, often overlooking resource efficiency and adaptability. This neglects a crucial capability: agents' ability to devise and adjust cost-optimal plans in response to changing environments. To bridge this gap, we introduce CostBench, a scalable, cost-centric benchmark designed to evaluate agents' economic reasoning and replanning abilities. Situated in the travel-planning domain, CostBench comprises tasks solvable via multiple sequences of atomic and composite tools with diverse, customizable costs. It also supports four types of dynamic blocking events, such as tool failures and cost changes, to simulate real-world unpredictability and necessitate agents to adapt in real time. Evaluating leading open-sourced and proprietary models on CostBench reveals a substantial gap in cost-aware planning: agents frequently fail to identify cost-optimal solutions in static settings, with even GPT-5 achieving less than 75% exact match rate on the hardest tasks, and performance further dropping by around 40% under dynamic conditions. By diagnosing these weaknesses, CostBench lays the groundwork for developing future agents that are both economically rational and robust.

CostBench: Avaliação de Planeamento e Adaptação de Custo Ótimo em Múltiplas Interações para Agentes de Uso de Ferramentas baseados em LLM em Ambientes Dinâmicos

CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

Resumo

Support