ChatPaper.aiChatPaper

EcoGym: Evaluación de LLM para la Planificación y Ejecución de Horizonte Largo en Economías Interactivas

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

February 10, 2026
Autores: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou
cs.AI

Resumen

La planificación a largo plazo es ampliamente reconocida como una capacidad fundamental de los agentes autónomos basados en LLM; sin embargo, los marcos de evaluación actuales adolecen de ser en gran medida episódicos, específicos de dominio o insuficientemente basados en dinámicas económicas persistentes. Presentamos EcoGym, un benchmark generalizable para la toma de decisiones continua de planificación y ejecución en economías interactivas. EcoGym comprende tres entornos diversos: Vending, Freelance y Operation, implementados en un proceso unificado de toma de decisiones con interfaces estandarizadas y acciones con presupuesto sobre un horizonte efectivamente ilimitado (1000+ pasos si se usan bucles de 365 días para evaluación). La evaluación en EcoGym se basa en resultados relevantes para los negocios (por ejemplo, patrimonio neto, ingresos y DAU), apuntando a la coherencia estratégica a largo plazo y la robustez bajo observabilidad parcial y estocasticidad. Los experimentos en once LLMs líderes exponen una tensión sistemática: ningún modelo único domina en los tres escenarios. Críticamente, encontramos que los modelos exhiben una suboptimalidad significativa, ya sea en estrategias de alto nivel o en la ejecución eficiente de acciones. EcoGym se publica como un banco de pruebas abierto y extensible para la evaluación transparente de agentes a largo plazo y para estudiar las compensaciones entre controlabilidad y utilidad en entornos económicos realistas.
English
Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.
PDF91February 13, 2026