FinToolBench: Evaluación de Agentes LLM para el Uso de Herramientas Financieras en el Mundo Real

Resumen

La integración de los Modelos de Lenguaje a Gran Escala (LLM) en el dominio financiero está impulsando un cambio de paradigma, desde la recuperación pasiva de información hacia una interacción dinámica y agéntica. Si bien el aprendizaje de herramientas de propósito general ha experimentado un auge en la creación de puntos de referencia, el sector financiero, caracterizado por altos riesgos, estricto cumplimiento normativo y rápida volatilidad de los datos, sigue estando críticamente desatendido. Las evaluaciones financieras existentes se centran predominantemente en el análisis textual estático o en preguntas y respuestas basadas en documentos, ignorando la compleja realidad de la ejecución de herramientas. Por el contrario, los puntos de referencia generales de herramientas carecen del rigor específico del dominio requerido para las finanzas, a menudo basándose en entornos simulados o en un número insignificante de API financieras. Para cerrar esta brecha, presentamos FinToolBench, el primer punto de referencia ejecutable del mundo real dedicado a evaluar agentes de aprendizaje de herramientas financieras. A diferencia de trabajos anteriores limitados a un puñado de herramientas simuladas, FinToolBench establece un ecosistema realista que acopla 760 herramientas financieras ejecutables con 295 consultas rigurosas que requieren el uso de herramientas. Proponemos un novedoso marco de evaluación que va más allá del éxito binario de la ejecución, evaluando a los agentes en dimensiones críticas para las finanzas: puntualidad, tipo de intención y alineación con el dominio regulatorio. Además, presentamos FATR, una línea base de razonamiento y recuperación de herramientas consciente del ámbito financiero que mejora la estabilidad y el cumplimiento normativo. Al proporcionar el primer banco de pruebas para la ejecución financiera agéntica y auditable, FinToolBench establece un nuevo estándar para la IA confiable en las finanzas. El manifiesto de herramientas, el entorno de ejecución y el código de evaluación serán de código abierto para facilitar la investigación futura.

English

The integration of Large Language Models (LLMs) into the financial domain is driving a paradigm shift from passive information retrieval to dynamic, agentic interaction. While general-purpose tool learning has witnessed a surge in benchmarks, the financial sector, characterized by high stakes, strict compliance, and rapid data volatility, remains critically underserved. Existing financial evaluations predominantly focus on static textual analysis or document-based QA, ignoring the complex reality of tool execution. Conversely, general tool benchmarks lack the domain-specific rigor required for finance, often relying on toy environments or a negligible number of financial APIs. To bridge this gap, we introduce FinToolBench, the first real-world, runnable benchmark dedicated to evaluating financial tool learning agents. Unlike prior works limited to a handful of mock tools, FinToolBench establishes a realistic ecosystem coupling 760 executable financial tools with 295 rigorous, tool-required queries. We propose a novel evaluation framework that goes beyond binary execution success, assessing agents on finance-critical dimensions: timeliness, intent type, and regulatory domain alignment. Furthermore, we present FATR, a finance-aware tool retrieval and reasoning baseline that enhances stability and compliance. By providing the first testbed for auditable, agentic financial execution, FinToolBench sets a new standard for trustworthy AI in finance. The tool manifest, execution environment, and evaluation code will be open-sourced to facilitate future research.

FinToolBench: Evaluación de Agentes LLM para el Uso de Herramientas Financieras en el Mundo Real

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Resumen

Support