FinToolBench: Avaliação de Agentes de LLM para Uso de Ferramentas Financeiras do Mundo Real

Resumo

A integração de Modelos de Linguagem de Grande Porte (LLMs) no domínio financeiro está impulsionando uma mudança de paradigma, da recuperação passiva de informação para uma interação dinâmica e agentiva. Embora a aprendizagem de ferramentas de propósito geral tenha testemunhado um aumento no desenvolvimento de benchmarks, o setor financeiro, caracterizado por altos riscos, conformidade rigorosa e volatilidade rápida dos dados, permanece criticamente subatendido. As avaliações financeiras existentes focam-se predominantemente na análise textual estática ou em QA baseado em documentos, ignorando a complexa realidade da execução de ferramentas. Por outro lado, os benchmarks gerais de ferramentas carecem do rigor específico de domínio necessário para as finanças, frequentemente baseando-se em ambientes simplificados ou num número negligenciável de APIs financeiras. Para colmatar esta lacuna, introduzimos o FinToolBench, o primeiro benchmark executável do mundo real dedicado a avaliar agentes de aprendizagem de ferramentas financeiras. Ao contrário de trabalhos anteriores limitados a um punhado de ferramentas simuladas, o FinToolBench estabelece um ecossistema realista que acopla 760 ferramentas financeiras executáveis com 295 consultas rigorosas que exigem o uso de ferramentas. Propomos um novo quadro de avaliação que vai além do sucesso binário de execução, avaliando os agentes em dimensões críticas para as finanças: pontualidade, tipo de intenção e alinhamento com o domínio regulamentar. Adicionalmente, apresentamos o FATR, uma linha de base para recuperação e raciocínio de ferramentas com consciência financeira que melhora a estabilidade e a conformidade. Ao fornecer o primeiro banco de testes para execução financeira agentiva e auditável, o FinToolBench estabelece um novo padrão para a IA confiável nas finanças. O manifesto das ferramentas, o ambiente de execução e o código de avaliação serão disponibilizados como código aberto para facilitar pesquisas futuras.

English

The integration of Large Language Models (LLMs) into the financial domain is driving a paradigm shift from passive information retrieval to dynamic, agentic interaction. While general-purpose tool learning has witnessed a surge in benchmarks, the financial sector, characterized by high stakes, strict compliance, and rapid data volatility, remains critically underserved. Existing financial evaluations predominantly focus on static textual analysis or document-based QA, ignoring the complex reality of tool execution. Conversely, general tool benchmarks lack the domain-specific rigor required for finance, often relying on toy environments or a negligible number of financial APIs. To bridge this gap, we introduce FinToolBench, the first real-world, runnable benchmark dedicated to evaluating financial tool learning agents. Unlike prior works limited to a handful of mock tools, FinToolBench establishes a realistic ecosystem coupling 760 executable financial tools with 295 rigorous, tool-required queries. We propose a novel evaluation framework that goes beyond binary execution success, assessing agents on finance-critical dimensions: timeliness, intent type, and regulatory domain alignment. Furthermore, we present FATR, a finance-aware tool retrieval and reasoning baseline that enhances stability and compliance. By providing the first testbed for auditable, agentic financial execution, FinToolBench sets a new standard for trustworthy AI in finance. The tool manifest, execution environment, and evaluation code will be open-sourced to facilitate future research.

FinToolBench: Avaliação de Agentes de LLM para Uso de Ferramentas Financeiras do Mundo Real

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Resumo

Support