EcoGym: Valutazione di LLM per la Pianificazione ed Esecuzione a Lungo Orizzonte in Economie Interattive

Abstract

La pianificazione a lungo termine è ampiamente riconosciuta come una capacità fondamentale degli agenti autonomi basati su LLM; tuttavia, gli attuali framework di valutazione soffrono di essere prevalentemente episodici, specifici per dominio o insufficientemente ancorati a dinamiche economiche persistenti. Introduciamo EcoGym, un benchmark generalizzabile per il processo decisionale continuo di pianificazione ed esecuzione in economie interattive. EcoGym comprende tre ambienti diversi: Vending, Freelance e Operation, implementati in un processo decisionale unificato con interfacce standardizzate e azioni budgetate su un orizzonte effettivamente illimitato (oltre 1000 passi, equivalenti a cicli di 365 giorni per la valutazione). La valutazione di EcoGym si basa su risultati rilevanti per il business (ad esempio, patrimonio netto, reddito e utenti attivi giornalieri - DAU), mirando alla coerenza strategica a lungo termine e alla robustezza in condizioni di osservabilità parziale e stocasticità. Esperimenti condotti su undici LLM leader di mercato rivelano una tensione sistematica: nessun singolo modello domina in tutti e tre gli scenari. In modo critico, abbiamo riscontrato che i modelli mostrano una significativa sub-ottimalità sia nelle strategie di alto livello che nell'esecuzione efficiente delle azioni. EcoGym viene rilasciato come un ambiente di test aperto ed estensibile per una valutazione trasparente degli agenti a lungo termine e per studiare i compromessi tra controllabilità e utilità in contesti economici realistici.

English

Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.

EcoGym: Valutazione di LLM per la Pianificazione ed Esecuzione a Lungo Orizzonte in Economie Interattive

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Abstract

Support