I Modelli Linguistici Possono Essere CFO? Un Benchmark per l'Allocazione delle Risorse in Ambienti Aziendali Dinamici

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno reso possibili sistemi agenti in grado di ragionare, pianificare e agire in compiti complessi, ma rimane poco chiaro se essi possano allocare le risorse in modo efficace in condizioni di incertezza. A differenza delle decisioni reattive a breve termine, l'allocazione richiede di impegnare risorse scarse nel tempo, bilanciando obiettivi concorrenti e preservando la flessibilità per le necessità future. Introduciamo EnterpriseArena, il primo benchmark per valutare gli agenti nell'allocazione di risorse aziendali a lungo termine. Esso implementa un processo decisionale in stile CFO in un simulatore aziendale di 132 mesi che combina dati finanziari a livello di impresa, documenti aziendali anonimi, segnali macroeconomici e di settore, e regole operative validate da esperti. L'ambiente è parzialmente osservabile e rivela lo stato solo attraverso strumenti organizzativi di budget, costringendo gli agenti a bilanciare l'acquisizione di informazioni con la conservazione di risorse scarse. Esperimenti condotti su undici LLM avanzati mostrano che questo scenario rimane estremamente impegnativo: solo il 16% delle esecuzioni sopravvive per l'intero orizzonte temporale, e i modelli più grandi non superano in modo affidabile quelli più piccoli. Questi risultati identificano l'allocazione di risorse a lungo termine in condizioni di incertezza come un distinto gap di capacità per gli attuali agenti basati su LLM.

English

Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.

I Modelli Linguistici Possono Essere CFO? Un Benchmark per l'Allocazione delle Risorse in Ambienti Aziendali Dinamici

Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

Abstract

Support