FinToolBench: Оценка агентов на основе больших языковых моделей для практического использования финансовых инструментов

Аннотация

Интеграция больших языковых моделей (LLM) в финансовую сферу вызывает смену парадигмы — от пассивного извлечения информации к динамическому агентному взаимодействию. Хотя обучение работе с инструментами общего назначения сопровождается бумом бенчмарков, финансовый сектор, для которого характерны высокие ставки, строгое регулирование и быстрая изменчивость данных, остается критически недостаточно охваченным. Существующие финансовые оценки в основном сосредоточены на статическом текстовом анализе или вопросах на основе документов, игнорируя сложные реалии выполнения инструментальных операций. В свою очередь, общие бенчмарки для инструментов лишены предметной строгости, необходимой для финансов, часто опираясь на упрощенные среды или ничтожное количество финансовых API. Чтобы заполнить этот пробел, мы представляем FinToolBench — первый пригодный для запуска бенчмарк реального мира, предназначенный для оценки агентов, обучающихся работе с финансовыми инструментами. В отличие от предыдущих работ, ограниченных небольшим числом имитационных инструментов, FinToolBench создает реалистичную экосистему, объединяющую 760 исполняемых финансовых инструментов с 295 строгими запросами, требующими их использования. Мы предлагаем новую систему оценки, выходящую за рамки бинарного успеха выполнения, и оценивающую агентов по критически важным для финансов параметрам: своевременности, типу намерения и соответствию нормативной области. Кроме того, мы представляем FATR — финансово-ориентированный базовый метод поиска инструментов и рассуждений, который повышает стабильность и соответствие требованиям. Предоставляя первую испытательную среду для проверяемого агентного финансового исполнения, FinToolBench устанавливает новый стандарт доверенного ИИ в финансах. Манифест инструментов, среда выполнения и код оценки будут открыты для содействия будущим исследованиям.

English

The integration of Large Language Models (LLMs) into the financial domain is driving a paradigm shift from passive information retrieval to dynamic, agentic interaction. While general-purpose tool learning has witnessed a surge in benchmarks, the financial sector, characterized by high stakes, strict compliance, and rapid data volatility, remains critically underserved. Existing financial evaluations predominantly focus on static textual analysis or document-based QA, ignoring the complex reality of tool execution. Conversely, general tool benchmarks lack the domain-specific rigor required for finance, often relying on toy environments or a negligible number of financial APIs. To bridge this gap, we introduce FinToolBench, the first real-world, runnable benchmark dedicated to evaluating financial tool learning agents. Unlike prior works limited to a handful of mock tools, FinToolBench establishes a realistic ecosystem coupling 760 executable financial tools with 295 rigorous, tool-required queries. We propose a novel evaluation framework that goes beyond binary execution success, assessing agents on finance-critical dimensions: timeliness, intent type, and regulatory domain alignment. Furthermore, we present FATR, a finance-aware tool retrieval and reasoning baseline that enhances stability and compliance. By providing the first testbed for auditable, agentic financial execution, FinToolBench sets a new standard for trustworthy AI in finance. The tool manifest, execution environment, and evaluation code will be open-sourced to facilitate future research.

FinToolBench: Оценка агентов на основе больших языковых моделей для практического использования финансовых инструментов

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Аннотация

Support