FinTrust: Um Benchmark Abrangente para Avaliação de Confiabilidade no Domínio Financeiro
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
October 17, 2025
Autores: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) recentes têm demonstrado uma capacidade promissora na resolução de problemas relacionados a finanças. No entanto, a aplicação de LLMs em aplicações financeiras do mundo real continua sendo desafiadora devido à sua natureza de alto risco e alto impacto. Este artigo apresenta o FinTrust, um benchmark abrangente projetado especificamente para avaliar a confiabilidade de LLMs em aplicações financeiras. Nosso benchmark foca em uma ampla gama de questões de alinhamento com base em contextos práticos e apresenta tarefas detalhadas para cada dimensão da avaliação de confiabilidade. Avaliamos onze LLMs no FinTrust e descobrimos que modelos proprietários, como o o4-mini, superam na maioria das tarefas, como segurança, enquanto modelos de código aberto, como o DeepSeek-V3, têm vantagem em áreas específicas, como justiça em nível de indústria. Para tarefas desafiadoras, como alinhamento fiduciário e divulgação, todos os LLMs ficam aquém, mostrando uma lacuna significativa na consciência legal. Acreditamos que o FinTrust pode ser um benchmark valioso para a avaliação da confiabilidade de LLMs no domínio financeiro.
English
Recent LLMs have demonstrated promising ability in solving finance related
problems. However, applying LLMs in real-world finance application remains
challenging due to its high risk and high stakes property. This paper
introduces FinTrust, a comprehensive benchmark specifically designed for
evaluating the trustworthiness of LLMs in finance applications. Our benchmark
focuses on a wide range of alignment issues based on practical context and
features fine-grained tasks for each dimension of trustworthiness evaluation.
We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini
outperforms in most tasks such as safety while open-source models like
DeepSeek-V3 have advantage in specific areas like industry-level fairness. For
challenging task like fiduciary alignment and disclosure, all LLMs fall short,
showing a significant gap in legal awareness. We believe that FinTrust can be a
valuable benchmark for LLMs' trustworthiness evaluation in finance domain.