EcoGym: Оценка больших языковых моделей для долгосрочного планирования и выполнения действий в интерактивных экономических средах

Аннотация

Долгосрочное планирование широко признано ключевой способностью автономных агентов на основе больших языковых моделей (LLM); однако существующие системы оценки страдают от эпизодичности, узкой предметной ориентации или недостаточной укоренённости в устойчивых экономических динамиках. Мы представляем EcoGym — универсальный бенчмарк для непрерывного принятия решений по принципу «планируй-и-выполняй» в интерактивных экономиках. EcoGym включает три разнородные среды: Vending (Торговые автоматы), Freelance (Фриланс) и Operation (Производство), реализованные в рамках единого процесса принятия решений со стандартизированными интерфейсами и бюджетными действиями в практически неограниченном горизонте (1000+ шагов при оценке в 365-дневных циклах). Оценка в EcoGym основана на бизнес-релевантных результатах (например, чистая стоимость, доход и DAU), нацеленных на долгосрочную стратегическую согласованность и устойчивость в условиях частичной наблюдаемости и стохастичности. Эксперименты с одиннадцатью ведущими LLM выявили системное противоречие: ни одна модель не доминирует во всех трёх сценариях. Критически важно, что модели демонстрируют значительную субоптимальность либо в высокоуровневых стратегиях, либо в эффективном выполнении действий. EcoGym выпускается как открытая, расширяемая платформа для прозрачной оценки долгосрочных агентов и изучения компромиссов между управляемостью и полезностью в реалистичных экономических условиях.

English

Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.

EcoGym: Оценка больших языковых моделей для долгосрочного планирования и выполнения действий в интерактивных экономических средах

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Аннотация

Support