Kunnen LLM-agents CFO's zijn? Een benchmark voor resourceallocatie in dynamische bedrijfsomgevingen

Samenvatting

Grote taalmmodellen (LLM's) hebben de ontwikkeling mogelijk gemaakt van agentische systemen die kunnen redeneren, plannen en handelen bij complexe taken, maar het is onduidelijk of ze effectief middelen kunnen toewijzen onder onzekerheid. In tegenstelling tot kortetermijnbeslissingen op basis van reacties, vereist toewijzing het inzetten van schaarse middelen over langere tijd, waarbij concurrerende doelstellingen moeten worden afgewogen en flexibiliteit voor toekomstige behoeften behouden moet blijven. Wij introduceren EnterpriseArena, de eerste benchmark voor het evalueren van agents op het gebied van langetermijnmiddelentoewijzing in ondernemingen. Het instantieert CFO-achtige besluitvorming in een 132-maanden ondernemingssimulator die bedrijfsbrede financiële gegevens, geanonimiseerde bedrijfsdocumenten, macro-economische en branchesignalen, en door experts gevalideerde operationele regels combineert. De omgeving is gedeeltelijk observeerbaar en onthult de toestand alleen via gebudgetteerde organisatorische hulpmiddelen, waardoor agents gedwongen worden informatieverwerving af te wegen tegen het behoud van schaarse middelen. Experimenten met elf geavanceerde LLM's tonen aan dat deze setting zeer uitdagend blijft: slechts 16% van de runs overleeft de volledige tijdsduur, en grotere modellen presteren niet consistent beter dan kleinere. Deze resultaten identificeren langetermijnmiddelentoewijzing onder onzekerheid als een duidelijk vermogensgat voor huidige LLM-agents.

English

Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.

Kunnen LLM-agents CFO's zijn? Een benchmark voor resourceallocatie in dynamische bedrijfsomgevingen

Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

Samenvatting

Support