EcoGym : Évaluation des LLM pour la planification et l'exécution à long terme dans des économies interactives

Résumé

La planification à long terme est largement reconnue comme une capacité fondamentale des agents autonomes basés sur les LLM. Cependant, les cadres d'évaluation actuels souffrent d'être largement épisodiques, spécifiques à un domaine ou insuffisamment ancrés dans des dynamiques économiques persistantes. Nous présentons EcoGym, un benchmark généralisable pour la prise de décision continue de type « planifier-exécuter » dans des économies interactives. EcoGym comprend trois environnements diversifiés : Vente automatique, Freelance et Opération, implémentés selon un processus de prise de décision unifié avec des interfaces standardisées et des actions budgétisées sur un horizon effectivement illimité (plus de 1000 étapes pour des boucles d'évaluation de 365 jours). L'évaluation d'EcoGym repose sur des résultats pertinents pour les entreprises (par exemple, la valeur nette, le revenu et les utilisateurs actifs quotidiens), visant une cohérence stratégique à long terme et une robustesse face à l'observabilité partielle et à la stochasticité. Des expériences menées sur onze LLM de premier plan révèlent une tension systématique : aucun modèle unique ne domine dans les trois scénarios. De manière critique, nous constatons que les modèles présentent une sous-optimalité significative, que ce soit dans les stratégies de haut niveau ou dans l'exécution efficace des actions. EcoGym est publié comme une plateforme de test ouverte et extensible pour une évaluation transparente des agents sur le long terme et pour l'étude des compromis entre contrôlabilité et utilité dans des contextes économiques réalistes.

English

Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.

EcoGym : Évaluation des LLM pour la planification et l'exécution à long terme dans des économies interactives

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Résumé

Support