EcoGym: Evaluatie van LLM's voor Lange-Termijn Plannen en Uitvoeren in Interactieve Economieën
EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies
February 10, 2026
Auteurs: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou
cs.AI
Samenvatting
Langetermijnplanning wordt algemeen erkend als een kerncapaciteit van autonome op LLM's gebaseerde agents; huidige evaluatieframeworks lijden echter onder het feit dat ze grotendeels episodisch, domeinspecifiek of onvoldoende verankerd zijn in persistente economische dynamieken. Wij introduceren EcoGym, een generaliseerbare benchmark voor continue besluitvorming in interactieve economieën volgens het plan-en-uitvoer-principe. EcoGym omvat drie uiteenlopende omgevingen: Vending, Freelance en Operation, geïmplementeerd in een uniform besluitvormingsproces met gestandaardiseerde interfaces en gebudgetteerde acties over een effectief onbegrensde horizon (1000+ stappen bij evaluatie met 365-dagen loops). De evaluatie van EcoGym is gebaseerd op zakelijk relevante uitkomsten (zoals nettowaarde, inkomen en DAU), met als doel langetermijnstrategische coherentie en robuustheid onder gedeeltelijke observeerbaarheid en stochasticiteit. Experimenten met elf toonaangevende LLM's leggen een systematische spanning bloot: geen enkel model domineert in alle drie scenario's. Cruciaal is dat we vaststellen dat modellen significante suboptimaliteit vertonen in óf hoogwaardige strategieën óf efficiënte actie-uitvoering. EcoGym wordt vrijgegeven als een open, uitbreidbare testomgeving voor transparante evaluatie van langetermijnagentschappen en voor het bestuderen van afruilingen tussen beheersbaarheid en nut in realistische economische settings.
English
Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.