FinTrust: Ein umfassender Benchmark zur Bewertung der Vertrauenswürdigkeit im Finanzbereich
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
October 17, 2025
papers.authors: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
papers.abstract
Aktuelle LLMs haben vielversprechende Fähigkeiten bei der Lösung von finanzbezogenen Problemen gezeigt. Die Anwendung von LLMs in realen Finanzanwendungen bleibt jedoch aufgrund ihrer hohen Risiken und hohen Einsatzwerte herausfordernd. Dieses Papier stellt FinTrust vor, einen umfassenden Benchmark, der speziell für die Bewertung der Vertrauenswürdigkeit von LLMs in Finanzanwendungen entwickelt wurde. Unser Benchmark konzentriert sich auf eine breite Palette von Ausrichtungsproblemen basierend auf praktischen Kontexten und bietet fein abgestufte Aufgaben für jede Dimension der Vertrauenswürdigkeitsbewertung. Wir bewerten elf LLMs auf FinTrust und stellen fest, dass proprietäre Modelle wie o4-mini in den meisten Aufgaben, wie z.B. Sicherheit, überlegen sind, während Open-Source-Modelle wie DeepSeek-V3 in spezifischen Bereichen wie branchenweiter Fairness Vorteile haben. Bei anspruchsvollen Aufgaben wie treuhänderischer Ausrichtung und Offenlegung schneiden alle LLMs schlecht ab, was eine erhebliche Lücke im Rechtsbewusstsein zeigt. Wir glauben, dass FinTrust ein wertvoller Benchmark für die Bewertung der Vertrauenswürdigkeit von LLMs im Finanzbereich sein kann.
English
Recent LLMs have demonstrated promising ability in solving finance related
problems. However, applying LLMs in real-world finance application remains
challenging due to its high risk and high stakes property. This paper
introduces FinTrust, a comprehensive benchmark specifically designed for
evaluating the trustworthiness of LLMs in finance applications. Our benchmark
focuses on a wide range of alignment issues based on practical context and
features fine-grained tasks for each dimension of trustworthiness evaluation.
We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini
outperforms in most tasks such as safety while open-source models like
DeepSeek-V3 have advantage in specific areas like industry-level fairness. For
challenging task like fiduciary alignment and disclosure, all LLMs fall short,
showing a significant gap in legal awareness. We believe that FinTrust can be a
valuable benchmark for LLMs' trustworthiness evaluation in finance domain.