ChatPaper.aiChatPaper

EcoGym: 상호작용 경제 환경에서 장기 계획 및 실행을 위한 LLM 평가

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

February 10, 2026
저자: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou
cs.AI

초록

장기 계획 수립은 자율적인 LLM 기반 에이전트의 핵심 능력으로 널리 인식되지만, 현재의 평가 체계는 대부분 일회성, 특정 도메인에 국한되거나 지속적인 경제 역동에 충분히 기반을 두지 못한 한계를 지닙니다. 본 연구에서는 상호작용 경제 환경에서의 연속적 계획-실행 의사 결정을 위한 일반화 가능한 벤치마크인 EcoGym을 소개합니다. EcoGym은 Vending, Freelance, Operation이라는 세 가지 다양한 환경으로 구성되며, 표준화된 인터페이스를 통한 통합 의사 결정 과정과 실질적으로 무제한에 가까운 시간 범위(평가용 365일 루프 기준 1000+ 단계) 내 예산이 할당된 행동으로 구현됩니다. EcoGym의 평가는 비즈니스 관련 결과(예: 순자산, 수입, DAU)에 기반하며, 부분 관찰 가능성과 확률적 요소 하에서 장기 전략적 일관성과 견고성을 목표로 합니다. 11개의 주요 LLM을 대상으로 진행한 실험은 체계적인 딜레마를 드러냈습니다: 세 가지 시나리오 모두에서 단일 모델이 우월한 성능을 보이지 않았습니다. 중요한 것은, 모델들이 높은 수준의 전략 또는 효율적인 행동 실행 중 한 측면에서 현저한 차선의 성능을 보인다는 점입니다. EcoGym은 투명한 장기 에이전트 평가와 현실적 경제 환경에서의 제어 가능성-유용성 상충 관계 연구를 위한 개방형 및 확장 가능한 테스트베드로 공개됩니다.
English
Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.
PDF91February 13, 2026