Os Agentes de LLM Podem Ser CFOs? Um Benchmark para Alocação de Recursos em Ambientes Empresariais Dinâmicos

Resumo

Os grandes modelos de linguagem (LLMs) permitiram o desenvolvimento de sistemas agentes capazes de raciocinar, planejar e agir em tarefas complexas, mas ainda não está claro se eles podem alocar recursos de forma eficaz sob incerteza. Diferente de decisões reativas de curto prazo, a alocação exige o comprometimento de recursos escassos ao longo do tempo, equilibrando objetivos concorrentes e preservando flexibilidade para necessidades futuras. Apresentamos o EnterpriseArena, o primeiro benchmark para avaliar agentes em alocação de recursos empresariais de longo horizonte. Ele instancia a tomada de decisão no estilo de um CFO em um simulador empresarial de 132 meses que combina dados financeiros em nível de empresa, documentos comerciais anonimizados, sinais macroeconômicos e setoriais, e regras operacionais validadas por especialistas. O ambiente é parcialmente observável e revela o estado apenas por meio de ferramentas organizacionais orçadas, forçando os agentes a balancear a aquisição de informações contra a conservação de recursos escassos. Experimentos com onze LLMs avançados mostram que este cenário permanece altamente desafiador: apenas 16% das execuções sobrevivem ao horizonte completo, e modelos maiores não superam de forma consistente os menores. Esses resultados identificam a alocação de recursos de longo horizonte sob incerteza como uma lacuna de capacidade distinta para os agentes de LLM atuais.

English

Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.