ChatPaper.aiChatPaper

EcoGym:インタラクティブ経済圏における長期的計画立案と実行のためのLLM評価

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

February 10, 2026
著者: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou
cs.AI

要旨

長期的計画立案は、自律的なLLMベースエージェントの核心的な能力として広く認識されている。しかし、現行の評価フレームワークは、そのほとんどがエピソード的、領域特化的、あるいは持続的な経済ダイナミクスに十分に根ざしていないという問題を抱えている。本論文では、インタラクティブな経済環境における継続的な計画立案と実行の意思決定を評価する、一般化可能なベンチマーク「EcoGym」を提案する。EcoGymは、Vending、Freelance、Operationという3つの多様な環境から構成され、標準化されたインターフェースを持つ統一的な意思決定プロセスと、実質的に無制限の時間軸(評価用の365日ループで1000ステップ以上)における予算化されたアクションで実装されている。EcoGymの評価は、純資産、収入、DAUなどビジネスに関連する成果に基づき、部分観測性と確率性の下での長期的な戦略的一貫性と頑健性を対象とする。11の主要LLMを用いた実験により、体系的ジレンマが明らかになった。すなわち、3つのシナリオ全てで優位に立つ単一のモデルは存在しない。決定的な発見として、モデルは高レベルの戦略か、効率的なアクション実行のいずれかにおいて、顕著な次最適性を示すことが判明した。EcoGymは、透明性のある長期的エージェント評価と、現実的な経済環境における制御可能性と有用性のトレードオフを研究するための、オープンで拡張可能なテストベッドとして公開されている。
English
Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.
PDF91February 13, 2026