ChatPaper.aiChatPaper

FinTrust: Un Benchmark Completo per la Valutazione dell'Affidabilità nel Dominio Finanziario

FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain

October 17, 2025
Autori: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI

Abstract

I recenti LLM (Large Language Models) hanno dimostrato una promettente capacità nel risolvere problemi legati alla finanza. Tuttavia, l'applicazione degli LLM in contesti finanziari reali rimane impegnativa a causa dell'elevato rischio e delle alte poste in gioco. Questo articolo introduce FinTrust, un benchmark completo progettato specificamente per valutare l'affidabilità degli LLM nelle applicazioni finanziarie. Il nostro benchmark si concentra su un'ampia gamma di problematiche di allineamento basate su contesti pratici e presenta task granulari per ogni dimensione della valutazione dell'affidabilità. Abbiamo valutato undici LLM su FinTrust e abbiamo riscontrato che modelli proprietari come o4-mini si distinguono nella maggior parte dei task, come la sicurezza, mentre modelli open-source come DeepSeek-V3 hanno un vantaggio in aree specifiche, come l'equità a livello di settore. Per task complessi come l'allineamento fiduciario e la divulgazione, tutti gli LLM risultano carenti, mostrando un significativo gap nella consapevolezza legale. Riteniamo che FinTrust possa rappresentare un benchmark prezioso per la valutazione dell'affidabilità degli LLM nel dominio finanziario.
English
Recent LLMs have demonstrated promising ability in solving finance related problems. However, applying LLMs in real-world finance application remains challenging due to its high risk and high stakes property. This paper introduces FinTrust, a comprehensive benchmark specifically designed for evaluating the trustworthiness of LLMs in finance applications. Our benchmark focuses on a wide range of alignment issues based on practical context and features fine-grained tasks for each dimension of trustworthiness evaluation. We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini outperforms in most tasks such as safety while open-source models like DeepSeek-V3 have advantage in specific areas like industry-level fairness. For challenging task like fiduciary alignment and disclosure, all LLMs fall short, showing a significant gap in legal awareness. We believe that FinTrust can be a valuable benchmark for LLMs' trustworthiness evaluation in finance domain.
PDF52October 20, 2025