EcoGym: Valutazione di LLM per la Pianificazione ed Esecuzione a Lungo Orizzonte in Economie Interattive
EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies
February 10, 2026
Autori: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou
cs.AI
Abstract
La pianificazione a lungo termine è ampiamente riconosciuta come una capacità fondamentale degli agenti autonomi basati su LLM; tuttavia, gli attuali framework di valutazione soffrono di essere prevalentemente episodici, specifici per dominio o insufficientemente ancorati a dinamiche economiche persistenti. Introduciamo EcoGym, un benchmark generalizzabile per il processo decisionale continuo di pianificazione ed esecuzione in economie interattive. EcoGym comprende tre ambienti diversi: Vending, Freelance e Operation, implementati in un processo decisionale unificato con interfacce standardizzate e azioni budgetate su un orizzonte effettivamente illimitato (oltre 1000 passi, equivalenti a cicli di 365 giorni per la valutazione). La valutazione di EcoGym si basa su risultati rilevanti per il business (ad esempio, patrimonio netto, reddito e utenti attivi giornalieri - DAU), mirando alla coerenza strategica a lungo termine e alla robustezza in condizioni di osservabilità parziale e stocasticità. Esperimenti condotti su undici LLM leader di mercato rivelano una tensione sistematica: nessun singolo modello domina in tutti e tre gli scenari. In modo critico, abbiamo riscontrato che i modelli mostrano una significativa sub-ottimalità sia nelle strategie di alto livello che nell'esecuzione efficiente delle azioni. EcoGym viene rilasciato come un ambiente di test aperto ed estensibile per una valutazione trasparente degli agenti a lungo termine e per studiare i compromessi tra controllabilità e utilità in contesti economici realistici.
English
Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.