ChatPaper.aiChatPaper

FinTrust: Комплексный эталон оценки надежности в финансовой сфере

FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain

October 17, 2025
Авторы: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
cs.AI

Аннотация

Последние крупные языковые модели (LLM) продемонстрировали перспективные способности в решении задач, связанных с финансами. Однако применение LLM в реальных финансовых приложениях остается сложным из-за их высокой степени риска и значимости. В данной статье представлен FinTrust — комплексный эталонный тест, специально разработанный для оценки надежности LLM в финансовых приложениях. Наш тест охватывает широкий спектр вопросов согласованности, основанных на практическом контексте, и включает детализированные задачи для каждого аспекта оценки надежности. Мы протестировали одиннадцать LLM на платформе FinTrust и обнаружили, что проприетарные модели, такие как o4-mini, превосходят в большинстве задач, таких как безопасность, в то время как модели с открытым исходным кодом, такие как DeepSeek-V3, имеют преимущество в определенных областях, например, в справедливости на уровне отрасли. В сложных задачах, таких как фидуциарное согласование и раскрытие информации, все LLM демонстрируют недостатки, что указывает на значительный пробел в осведомленности о правовых аспектах. Мы считаем, что FinTrust может стать ценным инструментом для оценки надежности LLM в финансовой сфере.
English
Recent LLMs have demonstrated promising ability in solving finance related problems. However, applying LLMs in real-world finance application remains challenging due to its high risk and high stakes property. This paper introduces FinTrust, a comprehensive benchmark specifically designed for evaluating the trustworthiness of LLMs in finance applications. Our benchmark focuses on a wide range of alignment issues based on practical context and features fine-grained tasks for each dimension of trustworthiness evaluation. We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini outperforms in most tasks such as safety while open-source models like DeepSeek-V3 have advantage in specific areas like industry-level fairness. For challenging task like fiduciary alignment and disclosure, all LLMs fall short, showing a significant gap in legal awareness. We believe that FinTrust can be a valuable benchmark for LLMs' trustworthiness evaluation in finance domain.
PDF52October 20, 2025