FinTrust: Un Marco Integral de Evaluación de la Confiabilidad en el Dominio Financiero
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
October 17, 2025
Autores: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
Resumen
Los modelos de lenguaje recientes (LLMs, por sus siglas en inglés) han demostrado una capacidad prometedora para resolver problemas relacionados con las finanzas. Sin embargo, la aplicación de LLMs en aplicaciones financieras del mundo real sigue siendo un desafío debido a su naturaleza de alto riesgo y altas consecuencias. Este artículo presenta FinTrust, un punto de referencia integral diseñado específicamente para evaluar la confiabilidad de los LLMs en aplicaciones financieras. Nuestro punto de referencia se centra en una amplia gama de problemas de alineación basados en contextos prácticos y presenta tareas detalladas para cada dimensión de la evaluación de confiabilidad. Evaluamos once LLMs en FinTrust y encontramos que modelos propietarios como o4-mini superan en la mayoría de las tareas, como la seguridad, mientras que modelos de código abierto como DeepSeek-V3 tienen ventajas en áreas específicas, como la equidad a nivel de la industria. Para tareas desafiantes como la alineación fiduciaria y la divulgación, todos los LLMs se quedan cortos, mostrando una brecha significativa en la conciencia legal. Creemos que FinTrust puede ser un punto de referencia valioso para la evaluación de la confiabilidad de los LLMs en el ámbito financiero.
English
Recent LLMs have demonstrated promising ability in solving finance related
problems. However, applying LLMs in real-world finance application remains
challenging due to its high risk and high stakes property. This paper
introduces FinTrust, a comprehensive benchmark specifically designed for
evaluating the trustworthiness of LLMs in finance applications. Our benchmark
focuses on a wide range of alignment issues based on practical context and
features fine-grained tasks for each dimension of trustworthiness evaluation.
We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini
outperforms in most tasks such as safety while open-source models like
DeepSeek-V3 have advantage in specific areas like industry-level fairness. For
challenging task like fiduciary alignment and disclosure, all LLMs fall short,
showing a significant gap in legal awareness. We believe that FinTrust can be a
valuable benchmark for LLMs' trustworthiness evaluation in finance domain.