Können LLM-Agenten CFOs sein? Ein Benchmark für die Ressourcenallokation in dynamischen Unternehmensumgebungen

Zusammenfassung

Große Sprachmodelle (LLMs) haben agentenbasierte Systeme ermöglicht, die komplexe Aufgaben durch Denken, Planen und Handeln bewältigen können. Dennoch bleibt unklar, ob sie Ressourcen effektiv unter Unsicherheit zuweisen können. Im Gegensatz zu kurzfristigen, reaktiven Entscheidungen erfordert die Zuteilung, knappe Ressourcen über die Zeit zu binden, während konkurrierende Ziele abgewogen und Flexibilität für zukünftige Bedürfnisse bewahrt werden muss. Wir stellen EnterpriseArena vor, den ersten Benchmark zur Bewertung von Agenten bei der langfristigen Unternehmensressourcenallokation. Dieser instanziiert CFO-ähnliche Entscheidungsfindung in einem 132-monatigen Unternehmenssimulator, der finanzielle Daten auf Unternehmensebene, anonymisierte Geschäftsdokumente, makroökonomische und branchenspezifische Signale sowie expertengestützte Betriebsregeln kombiniert. Die Umgebung ist teilweise beobachtbar und offenbart den Zustand nur durch budgetierte Organisationstools, was Agenten zwingt, den Erwerb von Informationen gegen das Einsparen knapper Ressourcen abzuwägen. Experimente mit elf fortschrittlichen LLMs zeigen, dass dieses Szenario nach wie vor äußerst anspruchsvoll ist: Nur 16 % der Durchläufe überstehen den gesamten Zeithorizont, und größere Modelle schneiden nicht zuverlässig besser ab als kleinere. Diese Ergebnisse identifizieren die langfristige Ressourcenallokation unter Unsicherheit als eine spezifische Fähigkeitslücke aktueller LLM-Agenten.

English

Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.

Können LLM-Agenten CFOs sein? Ein Benchmark für die Ressourcenallokation in dynamischen Unternehmensumgebungen

Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

Zusammenfassung

Support