ChatPaper.aiChatPaper

FinTrust: Een Uitgebreide Benchmark voor de Evaluatie van Betrouwbaarheid in het Financiële Domein

FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain

October 17, 2025
Auteurs: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI

Samenvatting

Recente LLM's hebben veelbelovende capaciteiten getoond bij het oplossen van financiële problemen. Het toepassen van LLM's in real-world financiële toepassingen blijft echter uitdagend vanwege het hoge risico en de grote belangen die ermee gemoeid zijn. Dit artikel introduceert FinTrust, een uitgebreide benchmark die specifiek is ontworpen om de betrouwbaarheid van LLM's in financiële toepassingen te evalueren. Onze benchmark richt zich op een breed scala aan afstemmingsproblemen gebaseerd op praktische context en bevat gedetailleerde taken voor elk aspect van betrouwbaarheidsevaluatie. We beoordelen elf LLM's op FinTrust en constateren dat propriëtaire modellen zoals o4-mini beter presteren in de meeste taken, zoals veiligheid, terwijl open-source modellen zoals DeepSeek-V3 een voordeel hebben in specifieke gebieden zoals branchebrede eerlijkheid. Voor uitdagende taken zoals fiduciaire afstemming en openbaarmaking schieten alle LLM's tekort, wat een aanzienlijk gebrek aan juridisch bewustzijn laat zien. Wij geloven dat FinTrust een waardevolle benchmark kan zijn voor de evaluatie van de betrouwbaarheid van LLM's in het financiële domein.
English
Recent LLMs have demonstrated promising ability in solving finance related problems. However, applying LLMs in real-world finance application remains challenging due to its high risk and high stakes property. This paper introduces FinTrust, a comprehensive benchmark specifically designed for evaluating the trustworthiness of LLMs in finance applications. Our benchmark focuses on a wide range of alignment issues based on practical context and features fine-grained tasks for each dimension of trustworthiness evaluation. We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini outperforms in most tasks such as safety while open-source models like DeepSeek-V3 have advantage in specific areas like industry-level fairness. For challenging task like fiduciary alignment and disclosure, all LLMs fall short, showing a significant gap in legal awareness. We believe that FinTrust can be a valuable benchmark for LLMs' trustworthiness evaluation in finance domain.
PDF52October 20, 2025