¿Pueden los agentes de LLM ser CFO? Una evaluación comparativa para la asignación de recursos en entornos empresariales dinámicos

Resumen

Los modelos de lenguaje de gran escala (LLM) han permitido el desarrollo de sistemas agentes capaces de razonar, planificar y actuar en tareas complejas, pero aún no está claro si pueden asignar recursos de manera efectiva bajo incertidumbre. A diferencia de las decisiones reactivas de horizonte corto, la asignación requiere comprometer recursos escasos a lo largo del tiempo mientras se equilibran objetivos en competencia y se preserva la flexibilidad para necesidades futuras. Presentamos EnterpriseArena, el primer benchmark para evaluar agentes en la asignación de recursos empresariales de largo horizonte. Este instancia un proceso de toma de decisiones estilo Director Financiero en un simulador empresarial de 132 meses que combina datos financieros a nivel de empresa, documentos comerciales anonimizados, señales macroeconómicas e industriales, y reglas operativas validadas por expertos. El entorno es parcialmente observable y solo revela el estado a través de herramientas organizativas presupuestadas, lo que obliga a los agentes a sopesar la adquisición de información frente a la conservación de recursos escasos. Los experimentos con once LLM avanzados muestran que este escenario sigue siendo muy desafiante: solo el 16% de las ejecuciones sobreviven todo el horizonte, y los modelos más grandes no superan de manera consistente a los más pequeños. Estos resultados identifican la asignación de recursos de largo horizonte bajo incertidumbre como una brecha de capacidad distintiva para los agentes basados en LLM actuales.

English

Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.

¿Pueden los agentes de LLM ser CFO? Una evaluación comparativa para la asignación de recursos en entornos empresariales dinámicos

Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

Resumen

Support