ChatPaper.aiChatPaper

EcoGym: Оценка больших языковых моделей для долгосрочного планирования и выполнения действий в интерактивных экономических средах

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

February 10, 2026
Авторы: Xavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou
cs.AI

Аннотация

Долгосрочное планирование широко признано ключевой способностью автономных агентов на основе больших языковых моделей (LLM); однако существующие системы оценки страдают от эпизодичности, узкой предметной ориентации или недостаточной укоренённости в устойчивых экономических динамиках. Мы представляем EcoGym — универсальный бенчмарк для непрерывного принятия решений по принципу «планируй-и-выполняй» в интерактивных экономиках. EcoGym включает три разнородные среды: Vending (Торговые автоматы), Freelance (Фриланс) и Operation (Производство), реализованные в рамках единого процесса принятия решений со стандартизированными интерфейсами и бюджетными действиями в практически неограниченном горизонте (1000+ шагов при оценке в 365-дневных циклах). Оценка в EcoGym основана на бизнес-релевантных результатах (например, чистая стоимость, доход и DAU), нацеленных на долгосрочную стратегическую согласованность и устойчивость в условиях частичной наблюдаемости и стохастичности. Эксперименты с одиннадцатью ведущими LLM выявили системное противоречие: ни одна модель не доминирует во всех трёх сценариях. Критически важно, что модели демонстрируют значительную субоптимальность либо в высокоуровневых стратегиях, либо в эффективном выполнении действий. EcoGym выпускается как открытая, расширяемая платформа для прозрачной оценки долгосрочных агентов и изучения компромиссов между управляемостью и полезностью в реалистичных экономических условиях.
English
Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.
PDF91February 13, 2026