EcoGym: Evaluación de LLM para la Planificación y Ejecución de Horizonte Largo en Economías Interactivas

Resumen

La planificación a largo plazo es ampliamente reconocida como una capacidad fundamental de los agentes autónomos basados en LLM; sin embargo, los marcos de evaluación actuales adolecen de ser en gran medida episódicos, específicos de dominio o insuficientemente basados en dinámicas económicas persistentes. Presentamos EcoGym, un benchmark generalizable para la toma de decisiones continua de planificación y ejecución en economías interactivas. EcoGym comprende tres entornos diversos: Vending, Freelance y Operation, implementados en un proceso unificado de toma de decisiones con interfaces estandarizadas y acciones con presupuesto sobre un horizonte efectivamente ilimitado (1000+ pasos si se usan bucles de 365 días para evaluación). La evaluación en EcoGym se basa en resultados relevantes para los negocios (por ejemplo, patrimonio neto, ingresos y DAU), apuntando a la coherencia estratégica a largo plazo y la robustez bajo observabilidad parcial y estocasticidad. Los experimentos en once LLMs líderes exponen una tensión sistemática: ningún modelo único domina en los tres escenarios. Críticamente, encontramos que los modelos exhiben una suboptimalidad significativa, ya sea en estrategias de alto nivel o en la ejecución eficiente de acciones. EcoGym se publica como un banco de pruebas abierto y extensible para la evaluación transparente de agentes a largo plazo y para estudiar las compensaciones entre controlabilidad y utilidad en entornos económicos realistas.

English

Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.