FinToolBench: Evaluatie van LLM-agenten voor praktijkgericht gebruik van financiële tools

Samenvatting

De integratie van Large Language Models (LLM's) in het financiële domein veroorzaakt een paradigmaverschuiving van passieve informatievergaring naar dynamische, agent-gestuurde interactie. Hoewel het leren omgaan met algemene tools een sterke toename in benchmarks heeft gezien, wordt de financiële sector – gekenmerkt door hoge belangen, strikte naleving en snelle datavolatiliteit – kritisch ondermaats bediend. Bestaande financiële evaluaties richten zich voornamelijk op statische tekstanalyse of documentgebaseerde vraag-antwoordsystemen, waarbij de complexe realiteit van tooluitvoering wordt genegeerd. Algemene toolbenchmarks daarentegen missen de domeinspecifieke strengheid die voor financiën vereist is, en zijn vaak gebaseerd op gesimuleerde omgevingen of een verwaarloosbaar aantal financiële API's. Om deze kloof te overbruggen, introduceren wij FinToolBench, de eerste real-world, uitvoerbare benchmark die specifiek is ontworpen voor het evalueren van financiële tool-leeragenten. In tegenstelling tot eerdere werken die beperkt zijn tot een handvol gesimuleerde tools, creëert FinToolBench een realistische ecosystem die 760 uitvoerbare financiële tools koppelt aan 295 rigoureuze, tool-afhankelijke vragen. Wij stellen een nieuw evaluatieraamwerk voor dat verder gaat dan binaire uitvoeringssucces, en agenten beoordeelt op financieel-kritieke dimensies: tijdigheid, intentietype en afstemming op het regelgevend domein. Verder presenteren wij FATR, een financieel-bewuste baseline voor toolretrieval en redenering die stabiliteit en naleving verbetert. Door de eerste testomgeving te bieden voor controleerbare, agent-gestuurde financiële uitvoering, zet FinToolBench een nieuwe standaard voor betrouwbare AI in de financiële wereld. De toolmanifesten, de uitvoeringsomgeving en de evaluatiecode zullen worden openbaar gemaakt om toekomstig onderzoek te vergemakkelijken.

English

The integration of Large Language Models (LLMs) into the financial domain is driving a paradigm shift from passive information retrieval to dynamic, agentic interaction. While general-purpose tool learning has witnessed a surge in benchmarks, the financial sector, characterized by high stakes, strict compliance, and rapid data volatility, remains critically underserved. Existing financial evaluations predominantly focus on static textual analysis or document-based QA, ignoring the complex reality of tool execution. Conversely, general tool benchmarks lack the domain-specific rigor required for finance, often relying on toy environments or a negligible number of financial APIs. To bridge this gap, we introduce FinToolBench, the first real-world, runnable benchmark dedicated to evaluating financial tool learning agents. Unlike prior works limited to a handful of mock tools, FinToolBench establishes a realistic ecosystem coupling 760 executable financial tools with 295 rigorous, tool-required queries. We propose a novel evaluation framework that goes beyond binary execution success, assessing agents on finance-critical dimensions: timeliness, intent type, and regulatory domain alignment. Furthermore, we present FATR, a finance-aware tool retrieval and reasoning baseline that enhances stability and compliance. By providing the first testbed for auditable, agentic financial execution, FinToolBench sets a new standard for trustworthy AI in finance. The tool manifest, execution environment, and evaluation code will be open-sourced to facilitate future research.

FinToolBench: Evaluatie van LLM-agenten voor praktijkgericht gebruik van financiële tools

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Samenvatting

Support