Les agents de LLM peuvent-ils être des DAF ? Un benchmark pour l'allocation des ressources dans des environnements d'entreprise dynamiques

Résumé

Les grands modèles de langage (LLM) ont permis le développement de systèmes agents capables de raisonner, de planifier et d'agir sur des tâches complexes, mais on ignore encore s'ils peuvent allouer efficacement des ressources dans un contexte d'incertitude. Contrairement aux décisions réactives à court terme, l'allocation nécessite d'engager des ressources rares sur la durée tout en équilibrant des objectifs concurrents et en préservant la flexibilité pour les besoins futurs. Nous présentons EnterpriseArena, le premier benchmark conçu pour évaluer les agents sur l'allocation des ressources d'entreprise à long terme. Il matérialise une prise de décision de type directeur financier dans un simulateur d'entreprise couvrant 132 mois, combinant des données financières au niveau de l'entreprise, des documents commerciaux anonymisés, des signaux macroéconomiques et sectoriels, ainsi que des règles opérationnelles validées par des experts. L'environnement est partiellement observable et ne révèle l'état qu'à travers des outils organisationnels budgétisés, forçant les agents à arbitrer entre l'acquisition d'informations et la préservation de ressources rares. Des expériences menées sur onze LLM avancés montrent que ce cadre reste très difficile : seulement 16 % des exécutions survivent à l'ensemble de l'horizon, et les modèles plus grands ne surclassent pas de manière fiable les plus petits. Ces résultats identifient l'allocation des ressources à long terme sous incertitude comme une lacune capacitaire distincte pour les agents LLM actuels.

English

Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.

Les agents de LLM peuvent-ils être des DAF ? Un benchmark pour l'allocation des ressources dans des environnements d'entreprise dynamiques

Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

Résumé

Support