ChatPaper.aiChatPaper

FinBen : Un benchmark financier holistique pour les grands modèles de langage

The FinBen: An Holistic Financial Benchmark for Large Language Models

February 20, 2024
papers.authors: Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang
cs.AI

papers.abstract

Les LLM (modèles de langage de grande taille) ont transformé le traitement du langage naturel (NLP) et montré un potentiel prometteur dans divers domaines. Cependant, leur application en finance reste sous-explorée en raison d'un manque d'évaluations approfondies et de la complexité des tâches financières. Ce constat, combiné au développement rapide des LLM, souligne le besoin urgent d'un benchmark d'évaluation systématique pour ces modèles dans le domaine financier. Dans cet article, nous présentons FinBen, le premier benchmark d'évaluation complet et open source, spécialement conçu pour évaluer de manière approfondie les capacités des LLM dans le domaine financier. FinBen englobe 35 jeux de données couvrant 23 tâches financières, organisées en trois niveaux de difficulté inspirés de la théorie de Cattell-Horn-Carroll, afin d'évaluer les capacités cognitives des LLM en raisonnement inductif, mémoire associative, raisonnement quantitatif, intelligence cristallisée, et plus encore. Notre évaluation de 15 LLM représentatifs, incluant GPT-4, ChatGPT et le dernier Gemini, révèle des insights sur leurs forces et limites dans le domaine financier. Les résultats montrent que GPT-4 excelle en quantification, extraction, raisonnement numérique et trading d'actions, tandis que Gemini brille en génération et prévision ; cependant, les deux modèles rencontrent des difficultés avec l'extraction complexe et la prévision, indiquant un besoin clair d'améliorations ciblées. Le réglage par instruction améliore les performances sur les tâches simples, mais ne parvient pas à renforcer les capacités de raisonnement complexe et de prévision. FinBen vise à évaluer continuellement les LLM en finance, en favorisant le développement de l'IA grâce à des mises à jour régulières des tâches et des modèles.
English
LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of financial tasks. This along with the rapid development of LLMs, highlights the urgent need for a systematic financial evaluation benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive open-sourced evaluation benchmark, specifically designed to thoroughly assess the capabilities of LLMs in the financial domain. FinBen encompasses 35 datasets across 23 financial tasks, organized into three spectrums of difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs' cognitive abilities in inductive reasoning, associative memory, quantitative reasoning, crystallized intelligence, and more. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals insights into their strengths and limitations within the financial domain. The findings indicate that GPT-4 leads in quantification, extraction, numerical reasoning, and stock trading, while Gemini shines in generation and forecasting; however, both struggle with complex extraction and forecasting, showing a clear need for targeted enhancements. Instruction tuning boosts simple task performance but falls short in improving complex reasoning and forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance, fostering AI development with regular updates of tasks and models.
PDF225December 15, 2024