ChatPaper.aiChatPaper

FinTrust : Un Benchmark Exhaustif pour l'Évaluation de la Fiabilité dans le Domaine Financier

FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain

October 17, 2025
papers.authors: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI

papers.abstract

Les modèles de langage récents (LLMs) ont démontré une capacité prometteuse à résoudre des problèmes liés à la finance. Cependant, l'application des LLMs dans des applications financières réelles reste un défi en raison de leur nature à haut risque et à enjeux élevés. Cet article présente FinTrust, un benchmark complet spécialement conçu pour évaluer la fiabilité des LLMs dans les applications financières. Notre benchmark se concentre sur un large éventail de problèmes d'alignement basés sur un contexte pratique et propose des tâches fines pour chaque dimension de l'évaluation de la fiabilité. Nous évaluons onze LLMs sur FinTrust et constatons que les modèles propriétaires comme o4-mini surpassent les autres dans la plupart des tâches, telles que la sécurité, tandis que les modèles open-source comme DeepSeek-V3 ont un avantage dans des domaines spécifiques comme l'équité au niveau de l'industrie. Pour des tâches complexes comme l'alignement fiduciaire et la divulgation, tous les LLMs présentent des lacunes, révélant un écart significatif dans la conscience juridique. Nous pensons que FinTrust peut constituer un benchmark précieux pour l'évaluation de la fiabilité des LLMs dans le domaine de la finance.
English
Recent LLMs have demonstrated promising ability in solving finance related problems. However, applying LLMs in real-world finance application remains challenging due to its high risk and high stakes property. This paper introduces FinTrust, a comprehensive benchmark specifically designed for evaluating the trustworthiness of LLMs in finance applications. Our benchmark focuses on a wide range of alignment issues based on practical context and features fine-grained tasks for each dimension of trustworthiness evaluation. We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini outperforms in most tasks such as safety while open-source models like DeepSeek-V3 have advantage in specific areas like industry-level fairness. For challenging task like fiduciary alignment and disclosure, all LLMs fall short, showing a significant gap in legal awareness. We believe that FinTrust can be a valuable benchmark for LLMs' trustworthiness evaluation in finance domain.
PDF52October 20, 2025