LLM 에이전트는 CFO가 될 수 있을까? 동적 기업 환경에서 자원 할당에 대한 벤치마크
Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments
March 24, 2026
저자: Yi Han, Lingfei Qian, Yan Wang, Yueru He, Xueqing Peng, Dongji Feng, Yankai Chen, Haohang Li, Yupeng Cao, Jimin Huang, Xue Liu, Jian-Yun Nie, Sophia Ananiadou
cs.AI
초록
대규모 언어 모델(LLM)은 복잡한 작업에 걸쳐 추론, 계획 및 행동이 가능한 에이전트 시스템을 가능하게 했지만, 불확실성 하에서 효과적으로 자원을 배분할 수 있는지 여부는 여전히 불분명합니다. 단기적인 반응형 결정과 달리, 자원 배분은 경쟁적인 목표를 균형 있게 추구하고 미래 수요에 대비해 유연성을 유지하면서 시간에 따라 희소 자원을 투입해야 합니다. 본 연구에서는 장기적 기업 자원 배분에 대한 에이전트 성능을 평가하는 최초의 벤치마크인 EnterpriseArena를 소개합니다. 이는 기업 수준 재무 데이터, 익명화된 비즈니스 문서, 거시경제 및 산업 신호, 전문가 검증 운영 규칙을 결합한 132개월 기간의 기업 시뮬레이터 내에서 CFO(최고재무책임자) 스타일 의사결정을 구현합니다. 이 환경은 부분 관측 가능하며, 예산 기반 조직 도구를 통해서만 상태를 공개하여 에이전트가 정보 획득과 희소 자원 보존 사이에서 절충해야 하도록 설계되었습니다. 11개의 고도화된 LLM에 대한 실험 결과, 이 환경이 여전히 매우 어려운 과제임을 보여줍니다: 전체 기간을 생존한 실행은 16%에 불과했으며, 더 큰 모델이 더 작은 모델보다 안정적으로 우수한 성능을 보이지 않았습니다. 이러한 결과는 불확실성 하의 장기적 자원 배분이 현재 LLM 에이전트의 뚜렷한 능력 격차임을 시사합니다.
English
Large language models (LLMs) have enabled agentic systems that can reason, plan, and act across complex tasks, but it remains unclear whether they can allocate resources effectively under uncertainty. Unlike short-horizon reactive decisions, allocation requires committing scarce resources over time while balancing competing objectives and preserving flexibility for future needs. We introduce EnterpriseArena, the first benchmark for evaluating agents on long-horizon enterprise resource allocation. It instantiates CFO-style decision-making in a 132-month enterprise simulator combining firm-level financial data, anonymized business documents, macroeconomic and industry signals, and expert-validated operating rules. The environment is partially observable and reveals the state only through budgeted organizational tools, forcing agents to trade off information acquisition against conserving scarce resources. Experiments on eleven advanced LLMs show that this setting remains highly challenging: only 16% of runs survive the full horizon, and larger models do not reliably outperform smaller ones. These results identify long-horizon resource allocation under uncertainty as a distinct capability gap for current LLM agents.