EcoGym: Avaliação de LLMs para Planejamento e Execução de Longo Prazo em Economias Interativas
EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies
February 10, 2026
Autores: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou
cs.AI
Resumo
O planejamento de longo horizonte é amplamente reconhecido como uma capacidade central de agentes autónomos baseados em LLM; no entanto, as estruturas de avaliação atuais pecam por serem largamente episódicas, específicas de domínio ou insuficientemente fundamentadas em dinâmicas económicas persistentes. Apresentamos a EcoGym, uma referência generalizável para a tomada de decisão contínua de planeamento e execução em economias interativas. A EcoGym compreende três ambientes diversos: Vending, Freelance e Operation, implementados num processo unificado de tomada de decisão com interfaces padronizadas e ações orçamentadas ao longo de um horizonte efetivamente ilimitado (1000+ passos, equivalentes a ciclos de 365 dias para avaliação). A avaliação na EcoGym baseia-se em resultados relevantes para negócios (ex: património líquido, rendimento e DAU), visando a coerência estratégica de longo prazo e a robustez sob observabilidade parcial e estocasticidade. Experiências com onze LLMs líderes expõem uma tensão sistemática: nenhum modelo único domina em todos os três cenários. Criticamente, descobrimos que os modelos exibem suboptimalidade significativa, seja em estratégias de alto nível ou na execução eficiente de ações. A EcoGym é disponibilizada como uma plataforma de testes aberta e extensível para avaliação transparente de agentes de longo horizonte e para estudar compromissos entre controlabilidade e utilidade em contextos económicos realistas.
English
Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.