ChatPaper.aiChatPaper

CostBench: 동적 환경에서 LLM 도구 사용 에이전트의 다중 턴 비용 최적 계획 및 적응 평가

CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

November 4, 2025
저자: Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung
cs.AI

초록

현재 대규모 언어 모델(LLM) 에이전트 평가는 주로 과제 완수에 중점을 두어 자원 효율성과 적응성을 종종 간과하고 있습니다. 이는 변화하는 환경에 대응하여 비용 최적의 계획을 수립하고 조정하는 에이전트의 핵심 능력을 놓치고 있는 것입니다. 이러한 격차를 해소하기 위해 본 연구에서는 에이전트의 경제적 추론 및 재계획 능력을 평가하기 위해 설계된 확장 가능한 비용 중심 벤치마크인 CostBench를 소개합니다. 여행 계획 분야를 배경으로 하는 CostBench는 다양하고 사용자 정의가 가능한 비용을 가진 원자적 및 복합 도구들을 통해 다중 순차적 접근으로 해결 가능한 과제들로 구성됩니다. 또한 도구 장애 및 비용 변동과 같은 4가지 유형의 동적 차단 이벤트를 지원하여 실제 세계의 예측 불가능성을 시뮬레이션하고 에이전트의 실시간 적응을 필요로 합니다. CostBench를 통해 주요 오픈소스 및 상용 모델을 평가한 결과, 비용 인식 계획 분야에서 상당한 격차가 확인되었습니다: 에이전트는 정적 환경에서 비용 최적 해결책을 자주 찾지 못하며, 가장 어려운 과제에서 GPT-5조차 75% 미만의 정확일치율을 보였고, 동적 조건에서는 성능이 약 40% 추가로 하락했습니다. 이러한 취약점을 진단함으로써 CostBench는 경제적으로 합리적이고 견고한 미래 에이전트 개발을 위한 기반을 마련합니다.
English
Current evaluations of Large Language Model (LLM) agents primarily emphasize task completion, often overlooking resource efficiency and adaptability. This neglects a crucial capability: agents' ability to devise and adjust cost-optimal plans in response to changing environments. To bridge this gap, we introduce CostBench, a scalable, cost-centric benchmark designed to evaluate agents' economic reasoning and replanning abilities. Situated in the travel-planning domain, CostBench comprises tasks solvable via multiple sequences of atomic and composite tools with diverse, customizable costs. It also supports four types of dynamic blocking events, such as tool failures and cost changes, to simulate real-world unpredictability and necessitate agents to adapt in real time. Evaluating leading open-sourced and proprietary models on CostBench reveals a substantial gap in cost-aware planning: agents frequently fail to identify cost-optimal solutions in static settings, with even GPT-5 achieving less than 75% exact match rate on the hardest tasks, and performance further dropping by around 40% under dynamic conditions. By diagnosing these weaknesses, CostBench lays the groundwork for developing future agents that are both economically rational and robust.
PDF202December 1, 2025