Могут ли агенты на основе больших языковых моделей стать финансовыми директорами? Бенчмарк для оценки распределения ресурсов в динамичных корпоративных средах

Аннотация

Крупные языковые модели (LLM) позволили создать агентные системы, способные рассуждать, планировать и действовать при выполнении сложных задач, однако остается неясным, могут ли они эффективно распределять ресурсы в условиях неопределенности. В отличие от краткосрочных реактивных решений, распределение требует долгосрочного выделения ограниченных ресурсов при одновременном балансировании конкурирующих целей и сохранении гибкости для будущих потребностей. Мы представляем EnterpriseArena — первый эталонный тест для оценки агентов в задачах долгосрочного распределения корпоративных ресурсов. Он реализует принятие решений в стиле финансового директора в симуляторе предприятия на 132 месяца, объединяющем данные на уровне фирмы, анонимизированные бизнес-документы, макроэкономические и отраслевые сигналы, а также экспертно проверенные операционные правила. Среда является частично наблюдаемой и раскрывает состояние только через инструменты бюджетного планирования, вынуждая агентов искать компромисс между получением информации и сохранением дефицитных ресурсов. Эксперименты с одиннадцатью передовыми LLM показывают, что эта задача остается крайне сложной: только 16% запусков выживают на всем временном горизонте, а более крупные модели не демонстрируют стабильного превосходства над меньшими. Эти результаты указывают на долгосрочное распределение ресурсов в условиях неопределенности как на отдельный пробел в возможностях современных LLM-агентов.

English

Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.

Могут ли агенты на основе больших языковых моделей стать финансовыми директорами? Бенчмарк для оценки распределения ресурсов в динамичных корпоративных средах

Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

Аннотация

Support