FinTrust : Un Benchmark Exhaustif pour l'Évaluation de la Fiabilité dans le Domaine Financier
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
October 17, 2025
papers.authors: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
papers.abstract
Les modèles de langage récents (LLMs) ont démontré une capacité prometteuse à résoudre des problèmes liés à la finance. Cependant, l'application des LLMs dans des applications financières réelles reste un défi en raison de leur nature à haut risque et à enjeux élevés. Cet article présente FinTrust, un benchmark complet spécialement conçu pour évaluer la fiabilité des LLMs dans les applications financières. Notre benchmark se concentre sur un large éventail de problèmes d'alignement basés sur un contexte pratique et propose des tâches fines pour chaque dimension de l'évaluation de la fiabilité. Nous évaluons onze LLMs sur FinTrust et constatons que les modèles propriétaires comme o4-mini surpassent les autres dans la plupart des tâches, telles que la sécurité, tandis que les modèles open-source comme DeepSeek-V3 ont un avantage dans des domaines spécifiques comme l'équité au niveau de l'industrie. Pour des tâches complexes comme l'alignement fiduciaire et la divulgation, tous les LLMs présentent des lacunes, révélant un écart significatif dans la conscience juridique. Nous pensons que FinTrust peut constituer un benchmark précieux pour l'évaluation de la fiabilité des LLMs dans le domaine de la finance.
English
Recent LLMs have demonstrated promising ability in solving finance related
problems. However, applying LLMs in real-world finance application remains
challenging due to its high risk and high stakes property. This paper
introduces FinTrust, a comprehensive benchmark specifically designed for
evaluating the trustworthiness of LLMs in finance applications. Our benchmark
focuses on a wide range of alignment issues based on practical context and
features fine-grained tasks for each dimension of trustworthiness evaluation.
We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini
outperforms in most tasks such as safety while open-source models like
DeepSeek-V3 have advantage in specific areas like industry-level fairness. For
challenging task like fiduciary alignment and disclosure, all LLMs fall short,
showing a significant gap in legal awareness. We believe that FinTrust can be a
valuable benchmark for LLMs' trustworthiness evaluation in finance domain.