EcoGym: Avaliação de LLMs para Planejamento e Execução de Longo Prazo em Economias Interativas

Resumo

O planejamento de longo horizonte é amplamente reconhecido como uma capacidade central de agentes autónomos baseados em LLM; no entanto, as estruturas de avaliação atuais pecam por serem largamente episódicas, específicas de domínio ou insuficientemente fundamentadas em dinâmicas económicas persistentes. Apresentamos a EcoGym, uma referência generalizável para a tomada de decisão contínua de planeamento e execução em economias interativas. A EcoGym compreende três ambientes diversos: Vending, Freelance e Operation, implementados num processo unificado de tomada de decisão com interfaces padronizadas e ações orçamentadas ao longo de um horizonte efetivamente ilimitado (1000+ passos, equivalentes a ciclos de 365 dias para avaliação). A avaliação na EcoGym baseia-se em resultados relevantes para negócios (ex: património líquido, rendimento e DAU), visando a coerência estratégica de longo prazo e a robustez sob observabilidade parcial e estocasticidade. Experiências com onze LLMs líderes expõem uma tensão sistemática: nenhum modelo único domina em todos os três cenários. Criticamente, descobrimos que os modelos exibem suboptimalidade significativa, seja em estratégias de alto nível ou na execução eficiente de ações. A EcoGym é disponibilizada como uma plataforma de testes aberta e extensível para avaliação transparente de agentes de longo horizonte e para estudar compromissos entre controlabilidade e utilidade em contextos económicos realistas.

English

Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.