FinTrust: 金融領域における信頼性評価の包括的ベンチマーク
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
October 17, 2025
著者: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
要旨
近年の大規模言語モデル(LLM)は、金融関連の問題解決において有望な能力を示している。しかし、その高いリスクと重大な影響を伴う性質から、現実世界の金融アプリケーションへのLLMの適用は依然として課題が多い。本論文では、金融アプリケーションにおけるLLMの信頼性を評価するために特別に設計された包括的なベンチマーク「FinTrust」を紹介する。本ベンチマークは、実践的な文脈に基づいた幅広い整合性の問題に焦点を当て、信頼性評価の各次元に対して細分化されたタスクを特徴としている。我々はFinTrustを用いて11のLLMを評価し、o4-miniのようなプロプライエタリモデルが安全性などのほとんどのタスクで優れている一方、DeepSeek-V3のようなオープンソースモデルが業界レベルの公平性などの特定の領域で優位性を持つことを明らかにした。受託者としての整合性や開示といった困難なタスクでは、すべてのLLMが不十分な結果を示し、法的意識の大きなギャップが浮き彫りとなった。FinTrustは、金融領域におけるLLMの信頼性評価において貴重なベンチマークとなり得ると我々は考えている。
English
Recent LLMs have demonstrated promising ability in solving finance related
problems. However, applying LLMs in real-world finance application remains
challenging due to its high risk and high stakes property. This paper
introduces FinTrust, a comprehensive benchmark specifically designed for
evaluating the trustworthiness of LLMs in finance applications. Our benchmark
focuses on a wide range of alignment issues based on practical context and
features fine-grained tasks for each dimension of trustworthiness evaluation.
We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini
outperforms in most tasks such as safety while open-source models like
DeepSeek-V3 have advantage in specific areas like industry-level fairness. For
challenging task like fiduciary alignment and disclosure, all LLMs fall short,
showing a significant gap in legal awareness. We believe that FinTrust can be a
valuable benchmark for LLMs' trustworthiness evaluation in finance domain.