FinToolBench: 実世界の金融ツール活用におけるLLMエージェントの評価
FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
March 9, 2026
著者: Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun
cs.AI
要旨
大規模言語モデル(LLM)の金融領域への統合は、受動的な情報検索から動的で主体的な対話へのパラダイムシフトを推進している。汎用ツール学習ではベンチマークの急増がみられる一方、リスクが高く、厳格なコンプライアンス、急速なデータ変動を特徴とする金融セクターでは、決定的に評価基盤が不足している。既存の金融評価は、静的なテキスト分析や文書ベースのQAに主眼が置かれており、ツール実行の複雑な現実を無視している。逆に、汎用ツールのベンチマークは、金融に必要なドメイン特化の厳密さを欠き、しばしばトイ環境やごく少数の金融APIに依存している。このギャップを埋めるため、我々は金融ツール学習エージェントを評価する初の実世界実行可能ベンチマークであるFinToolBenchを提案する。少数の模擬ツールに限定された従来研究とは異なり、FinToolBenchは760の実行可能な金融ツールと、ツールを必要とする厳選された295のクエリを連携させた現実的なエコシステムを構築する。我々は、単なる二値的な実行成功を超え、金融において重要な側面——即時性、意図タイプ、規制ドメイン適合性——でエージェントを評価する新たな評価フレームワークを提案する。さらに、安定性とコンプライアンスを強化する、金融を意識したツール検索・推論ベースライン手法FATRを提示する。監査可能な主体的金融実行のための初のテストベッドを提供することにより、FinToolBenchは金融における信頼できるAIの新たな標準を確立する。ツールマニフェスト、実行環境、評価コードは公開され、将来の研究を促進する。
English
The integration of Large Language Models (LLMs) into the financial domain is driving a paradigm shift from passive information retrieval to dynamic, agentic interaction. While general-purpose tool learning has witnessed a surge in benchmarks, the financial sector, characterized by high stakes, strict compliance, and rapid data volatility, remains critically underserved. Existing financial evaluations predominantly focus on static textual analysis or document-based QA, ignoring the complex reality of tool execution. Conversely, general tool benchmarks lack the domain-specific rigor required for finance, often relying on toy environments or a negligible number of financial APIs. To bridge this gap, we introduce FinToolBench, the first real-world, runnable benchmark dedicated to evaluating financial tool learning agents. Unlike prior works limited to a handful of mock tools, FinToolBench establishes a realistic ecosystem coupling 760 executable financial tools with 295 rigorous, tool-required queries. We propose a novel evaluation framework that goes beyond binary execution success, assessing agents on finance-critical dimensions: timeliness, intent type, and regulatory domain alignment. Furthermore, we present FATR, a finance-aware tool retrieval and reasoning baseline that enhances stability and compliance. By providing the first testbed for auditable, agentic financial execution, FinToolBench sets a new standard for trustworthy AI in finance. The tool manifest, execution environment, and evaluation code will be open-sourced to facilitate future research.