FinToolBench: 실생활 금융 도구 활용을 위한 LLM 에이전트 평가
FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
March 9, 2026
저자: Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun
cs.AI
초록
대규모 언어 모델(LLM)의 금융 영역 통합은 수동적 정보 검색에서 능동적 상호작용으로의 패러다임 전환을 주도하고 있습니다. 범용 도구 학습 분야에서는 벤치마크가 급증했으나, 높은 위험, 엄격한 규정 준수, 빠른 데이터 변동성을 특징으로 하는 금융 부문은 여전히 심각한 평가 도구 부족 상태에 있습니다. 기존 금융 평가는 주로 정적 텍스트 분석이나 문서 기반 질의응답에 초점을 맞추어, 도구 실행의 복잡한 현실을 간과하고 있습니다. 반면, 일반 도구 벤치마크는 금융에 필요한 영역 특화적 엄격성이 부족한 경우가 많으며, 단순한 실험 환경이나 극소수의 금융 API에 의존합니다. 이러한 격차를 해소하기 위해 우리는 금융 도구 학습 에이전트 평가를 위한 최초의 실제 실행 가능한 벤치마크인 FinToolBench를 소개합니다. 소수의 모의 도구에 국한된 기존 연구와 달리, FinToolBench는 760개의 실행 가능한 금융 도구와 275개의 엄격한 도구 필수 쿼리를 결합한 현실적인 생태계를 구축합니다. 우리는 단순한 실행 성공 여부를 넘어 금융 핵심 차원(시의성, 의도 유형, 규제 영역 정합성)에서 에이전트를 평가하는 새로운 평가 프레임워크를 제안합니다. 더 나아가 안정성과 규정 준수를 강화하는 금융 인식 도구 검색 및 추론 기법인 FATR을 제시합니다. 검증 가능한 능동적 금융 실행을 위한 최초의 테스트베드를 제공함으로써, FinToolBench는 금융 분야 신뢰할 수 있는 AI의 새로운 기준을 제시합니다. 도구 매니페스트, 실행 환경 및 평가 코드는 향후 연구를 촉진하기 위해 오픈소스로 공개될 예정입니다.
English
The integration of Large Language Models (LLMs) into the financial domain is driving a paradigm shift from passive information retrieval to dynamic, agentic interaction. While general-purpose tool learning has witnessed a surge in benchmarks, the financial sector, characterized by high stakes, strict compliance, and rapid data volatility, remains critically underserved. Existing financial evaluations predominantly focus on static textual analysis or document-based QA, ignoring the complex reality of tool execution. Conversely, general tool benchmarks lack the domain-specific rigor required for finance, often relying on toy environments or a negligible number of financial APIs. To bridge this gap, we introduce FinToolBench, the first real-world, runnable benchmark dedicated to evaluating financial tool learning agents. Unlike prior works limited to a handful of mock tools, FinToolBench establishes a realistic ecosystem coupling 760 executable financial tools with 295 rigorous, tool-required queries. We propose a novel evaluation framework that goes beyond binary execution success, assessing agents on finance-critical dimensions: timeliness, intent type, and regulatory domain alignment. Furthermore, we present FATR, a finance-aware tool retrieval and reasoning baseline that enhances stability and compliance. By providing the first testbed for auditable, agentic financial execution, FinToolBench sets a new standard for trustworthy AI in finance. The tool manifest, execution environment, and evaluation code will be open-sourced to facilitate future research.