ChatPaper.aiChatPaper

EcoGym: Bewertung von LLMs für langfristiges Planen und Ausführen in interaktiven Wirtschaftssimulationen

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

February 10, 2026
papers.authors: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou
cs.AI

papers.abstract

Langfristige Planung wird allgemein als Kernfähigkeit autonomer, auf LLM basierender Agenten anerkannt; gegenwärtige Evaluierungsrahmen leiden jedoch darunter, dass sie weitgehend episodisch, domänenspezifisch oder unzureichend in persistente wirtschaftliche Dynamiken eingebettet sind. Wir stellen EcoGym vor, einen generalisierbaren Benchmark für kontinuierliches Planungs- und Ausführungs-Entscheidungsfinden in interaktiven Wirtschaftssimulationen. EcoGym umfasst drei verschiedene Umgebungen: Vending, Freelance und Operation, die in einem einheitlichen Entscheidungsprozess mit standardisierten Schnittstellen und budgetierten Aktionen über einen effektiv unbegrenzten Zeithorizont implementiert sind (1000+ Schritte bei 365-Tage-Zyklen zur Evaluation). Die Bewertung in EcoGym basiert auf geschäftsrelevanten Ergebnissen (z.B. Nettovermögen, Einkommen und DAU (tägliche aktive Nutzer)) und zielt auf langfristige strategische Kohärenz und Robustheit unter partieller Beobachtbarkeit und Stochastizität ab. Experimente mit elf führenden LLMs offenbaren eine systematische Spannung: Kein einzelnes Modell dominiert in allen drei Szenarien. Kritisch ist, dass Modelle signifikante Suboptimalität entweder in hochrangigen Strategien oder in der effizienten Ausführung von Aktionen aufweisen. EcoGym wird als offene, erweiterbare Testumgebung veröffentlicht, um eine transparente Evaluation von Agenten über lange Zeithorizonte zu ermöglichen und die Abwägung zwischen Steuerbarkeit und Nutzen in realistischen wirtschaftlichen Settings zu untersuchen.
English
Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.
PDF91February 13, 2026