FinTrust: 금융 도메인에서의 신뢰성 평가를 위한 포괄적 벤치마크
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
October 17, 2025
저자: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI
초록
최근 LLM(Large Language Model)은 금융 관련 문제 해결에서 유망한 능력을 보여주고 있습니다. 그러나 실제 금융 애플리케이션에 LLM을 적용하는 것은 높은 위험성과 중대한 결과를 초래할 수 있는 특성으로 인해 여전히 어려운 과제로 남아 있습니다. 본 논문은 금융 애플리케이션에서 LLM의 신뢰성을 평가하기 위해 특별히 설계된 포괄적인 벤치마크인 FinTrust를 소개합니다. 우리의 벤치마크는 실질적인 맥락을 기반으로 한 다양한 정렬 문제에 초점을 맞추며, 신뢰성 평가의 각 차원에 대해 세분화된 과제를 제공합니다. 우리는 FinTrust를 통해 11개의 LLM을 평가했으며, o4-mini와 같은 상용 모델이 안전성과 같은 대부분의 과제에서 우수한 성능을 보인 반면, DeepSeek-V3와 같은 오픈소스 모델은 산업 수준의 공정성과 같은 특정 영역에서 강점을 보였습니다. 그러나 신탁 정렬 및 공시와 같은 도전적인 과제에서는 모든 LLM이 부족한 성적을 보이며 법적 인식에서 상당한 격차가 있음을 확인했습니다. 우리는 FinTrust가 금융 분야에서 LLM의 신뢰성을 평가하는 데 있어 가치 있는 벤치마크가 될 수 있다고 믿습니다.
English
Recent LLMs have demonstrated promising ability in solving finance related
problems. However, applying LLMs in real-world finance application remains
challenging due to its high risk and high stakes property. This paper
introduces FinTrust, a comprehensive benchmark specifically designed for
evaluating the trustworthiness of LLMs in finance applications. Our benchmark
focuses on a wide range of alignment issues based on practical context and
features fine-grained tasks for each dimension of trustworthiness evaluation.
We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini
outperforms in most tasks such as safety while open-source models like
DeepSeek-V3 have advantage in specific areas like industry-level fairness. For
challenging task like fiduciary alignment and disclosure, all LLMs fall short,
showing a significant gap in legal awareness. We believe that FinTrust can be a
valuable benchmark for LLMs' trustworthiness evaluation in finance domain.